Alors que l’intelligence artificielle (IA) progresse à toute vitesse, plus de 100 chercheurs tirent la sonnette d’alarme sur l’accès totalement ouvert à certains jeux de données biologiques sensibles. L’IA appliquée à la biologie a besoin de grandes quantités d’informations, séquences génétiques, caractéristiques de pathogènes, et l’ouverture de ces données peut présenter un risque : la création d’agents pathogènes mortels si ces données tombent entre de mauvaises mains. Cette situation soulève la question de l’usage légitime des données scientifiques tout en rappelant l’importance de la recherche ouverte pour accélérer les découvertes.
Des règles commencent à émerger dans un secteur mal régulé
Aujourd’hui, il n’existe pas de régulation universelle sur l’accès aux jeux de données biologiques. Pourtant, en février 2025, l’équipe d’EVO 2 a pris des mesures en excluant certains agents pathogènes de leurs données d’entraînement, invoquant des raisons éthiques et de sécurité. D’autres développeurs ont aussi adopté des pratiques volontaires, comme ceux des modèles Evo et ESM3, qui choisissent de ne pas diffuser certains virus dangereux. Moritz Hanke, chercheur à la Johns Hopkins University, estime que « limiter l’accès aux données de pathogènes sensibles aux chercheurs légitimes pourrait être l’une des voies les plus prometteuses pour réduire les risques ».
Ce que l’IA peut faire et les dangers pour la biologie
Les modèles d’IA développés par des organismes comme l’Arc Institute, Stanford, TogetherAI, et EvolutionaryScale présentent des capacités impressionnantes. Ils peuvent prédire des mutations, identifier des motifs génétiques et générer des variantes de pathogènes plus transmissibles. Mais un accès non contrôlé à ces données pourrait faciliter la conception de virus dangereux et augmenter le risque de pandémies. Les auteurs parlent de cette capacité comme « préoccupante ». De nouvelles données pourraient permettre de créer des agents pathogènes nuisibles aux humains et à l’environnement.
Proposer un cadre : le Biosecurity Data Level (BDL)
Pour répondre à ces défis, les chercheurs proposent le Biosecurity Data Level (BDL), un système en cinq niveaux pour classer les informations selon leur potentiel de risque. Par exemple, le BDL-0 concerne des données sans restrictions, tandis que le BDL-4 regroupe les informations les plus sensibles, comme des mutations du Covid-19 qui rendraient le virus plus contagieux. Jassi Panu, signataire de l’appel, rappelle qu’« à l’heure actuelle, il n’existe aucune orientation soutenue par des experts sur les données qui posent des risques significatifs ».
Des solutions pour une gouvernance responsable des données
Plusieurs outils sont proposés pour vérifier l’identité des utilisateurs et limiter les abus :
- filigrane numérique
- biométrie comportementale
- entre autres
L’idée est de permettre aux utilisateurs légitimes d’accéder aux informations tout en diminuant les risques d’utilisation malveillante. Ces garde-fous visent à protéger des découvertes scientifiques importantes tout en empêchant l’apparition possible de nouvelles menaces biologiques.
Les chercheurs insistent sur le fait que gouvernance responsable et progrès scientifique doivent avancer ensemble. L’administration américaine cherche à concilier ces objectifs via des initiatives comme la Mission Genesis, destinée à former des IA sur de vastes ensembles de données scientifiques. Même si les défis sont énormes, « les enjeux de la gouvernance des données biologiques sont élevés », selon le reportage d’Euronews daté du 18 février 2026.


