Un surplus d’informations étrangères, ou « bruit », a masqué des caractéristiques cruciales dans l’analyse de l’ADN par l’IA, un problème assimilé à la rencontre de la « matière noire » numérique. Aujourd’hui, les scientifiques disposent peut-être d’un moyen de remédier à ce problème.
L’intelligence artificielle a envahi notre quotidien. Au départ, elle était évidente dans le ChatGPT, et aujourd’hui, elle est visible dans les publicités pour les pizzas et les bières générées par l’IA. Si l’IA n’est peut-être pas entièrement fiable, il semble que, parfois, notre propre utilisation de l’IA ne soit pas non plus entièrement digne de confiance.
Peter Koo, professeur adjoint au Cold Spring Harbor Laboratory (CSHL), a découvert que les scientifiques qui utilisent des outils informatiques courants pour interpréter les prédictions de l’IA perçoivent trop de « bruit », ou d’informations supplémentaires, lorsqu’ils analysent l’ADN. Et il a trouvé un moyen d’y remédier. Désormais, grâce à quelques nouvelles lignes de code, les scientifiques peuvent obtenir des explications plus fiables de la part des puissantes IA connues sous le nom de réseaux neuronaux profonds. Cela signifie qu’ils peuvent continuer à rechercher les caractéristiques authentiques de l’ADN. Ces caractéristiques pourraient bien être le signe de la prochaine percée dans le domaine de la santé et de la médecine. Mais les scientifiques ne verront pas les signaux s’ils sont noyés dans trop de bruit.
Quelle est donc la cause de ce bruit gênant ? Il s’agit d’une source mystérieuse et invisible, comme la « matière noire » numérique. Les physiciens et les astronomes pensent que la majeure partie de l’univers est remplie de matière noire, un matériau qui exerce des effets gravitationnels mais que personne n’a encore vu. De même, M. Koo et son équipe ont découvert que les données sur lesquelles l’IA est entraînée manquent d’informations essentielles, ce qui entraîne d’importantes zones d’ombre. Pire encore, ces zones aveugles sont prises en compte lors de l’interprétation des prédictions de l’IA concernant la fonction de l’ADN.
Koo déclare : « Le réseau neuronal profond intègre ce comportement aléatoire parce qu’il apprend une fonction partout. Mais l’ADN ne se trouve que dans un petit sous-espace de cette fonction. Et il introduit beaucoup de bruit. Nous montrons donc que ce problème introduit effectivement beaucoup de bruit dans une grande variété de modèles d’IA importants. »
La matière noire numérique est le résultat de l’emprunt par les scientifiques de techniques de calcul de l’IA de la vision par ordinateur. Les données de l’ADN, contrairement aux images, se limitent à une combinaison de quatre lettres nucléotides : A, C, G, T. Mais les données d’image, sous forme de pixels, peuvent être longues et continues. En d’autres termes, nous donnons à l’IA une entrée qu’elle ne sait pas traiter correctement.
En appliquant la correction informatique de Koo, les scientifiques peuvent interpréter les analyses d’ADN de l’IA avec plus de précision.
Koo déclare : « Nous finissons par voir des sites qui deviennent beaucoup plus nets et propres, et il y a moins de bruit parasite dans d’autres régions. Des nucléotides isolés jugés très importants disparaissent tout à coup ».
M. Koo pense que les perturbations sonores ne concernent pas seulement les analyseurs d’ADN dotés d’une IA. Il pense qu’il s’agit d’un mal répandu parmi les processus informatiques impliquant des types de données similaires. N’oublions pas que la matière noire est omniprésente. Heureusement, le nouvel outil de Koo peut aider les scientifiques à sortir de l’obscurité et à entrer dans la lumière.
Référence : « Correcting gradient-based interpretations of deep neural networks for genomics » par Antonio Majdandzic, Chandana Rajesh et Peter K. Koo, 9 mai 2023, Genome Biology.
DOI: 10.1186/s13059-023-02956-3
L’étude a été financée par les National Institutes of Health et le Simons Center for Quantitative Biology.