Le système FrameDiff a été testé sur la construction de protéines uniques et les chercheurs ont constaté qu’il pouvait créer de grosses protéines comportant jusqu’à 500 parties. Contrairement aux méthodes précédentes, il n’a pas besoin de s’appuyer sur une carte préexistante de la structure de la protéine. Crédit : Alex Shipps/MIT CSAIL via Midjourney
Des chercheurs du MIT développent « FrameDiff », un outil informatique qui utilise l’IA générative pour créer de nouvelles structures protéiques, dans le but d’accélérer le développement de médicaments et d’améliorer la thérapie génique.
Les chercheurs du CSAIL du MIT ont mis au point un outil informatique, FrameDiff, qui utilise l’IA générative pour créer de nouvelles structures protéiques. Il utilise l’apprentissage automatique pour modéliser les « squelettes » des protéines et les ajuster en 3D, créant ainsi des protéines au-delà des modèles connus. Cette avancée pourrait accélérer la mise au point de médicaments et améliorer la thérapie génique en créant des protéines qui se lient plus efficacement, avec des applications potentielles en biotechnologie, dans l’administration ciblée de médicaments, etc.
La biologie est une tapisserie merveilleuse mais délicate. Au cœur de cette tapisserie se trouve l’ADN, le maître tisserand qui code les protéines, responsables de l’orchestration des nombreuses fonctions biologiques qui maintiennent la vie dans le corps humain. Cependant, notre corps est semblable à un instrument finement accordé, susceptible de perdre son harmonie. Après tout, nous sommes confrontés à un monde naturel en constante évolution et implacable : agents pathogènes, virus, maladies et cancers.
Imaginez que nous puissions accélérer le processus de création de vaccins ou de médicaments contre les nouveaux agents pathogènes. Et si nous disposions d’une technologie d’édition de gènes capable de produire automatiquement des protéines pour rectifier les erreurs d’ADN à l’origine du cancer ? La recherche de protéines capables de se lier fortement à des cibles ou d’accélérer des réactions chimiques est vitale pour le développement de médicaments, les diagnostics et de nombreuses applications industrielles, mais il s’agit souvent d’une entreprise longue et coûteuse.
Pour faire progresser nos capacités en matière d’ingénierie des protéines, les chercheurs du MIT CSAIL ont mis au point « FrameDiff », un outil informatique permettant de créer de nouvelles structures protéiques au-delà de ce que la nature a produit. L’approche d’apprentissage automatique génère des « cadres » qui s’alignent sur les propriétés inhérentes des structures protéiques, ce qui permet de construire de nouvelles protéines indépendamment des modèles préexistants, facilitant ainsi la création de structures protéiques sans précédent.
« Dans la nature, la conception des protéines est un processus lent qui prend des millions d’années. Notre technique vise à apporter une réponse aux problèmes créés par l’homme qui évoluent beaucoup plus rapidement que la nature », explique Jason Yim, doctorant au MIT CSAIL et auteur principal d’un nouvel article sur ces travaux. « L’objectif, en ce qui concerne cette nouvelle capacité à générer des structures protéiques synthétiques, ouvre la voie à une myriade de capacités améliorées, telles que de meilleurs liants. Cela signifie qu’il faut concevoir des protéines qui peuvent s’attacher à d’autres molécules de manière plus efficace et plus sélective, ce qui a de vastes implications en matière d’administration ciblée de médicaments et de biotechnologie, où cela pourrait déboucher sur le développement de meilleurs biocapteurs. Cela pourrait également avoir des implications dans le domaine de la biomédecine et au-delà, offrant des possibilités telles que le développement de protéines de photosynthèse plus efficaces, la création d’anticorps plus efficaces et l’ingénierie de nanoparticules pour la thérapie génique ».
Sommaire
Encadrement FrameDiff
Les protéines ont des structures complexes, composées de nombreux atomes reliés par des liaisons chimiques. Les atomes les plus importants qui déterminent la forme tridimensionnelle de la protéine sont appelés le « squelette », un peu comme la colonne vertébrale de la protéine. Chaque triplet d’atomes le long de la colonne vertébrale partage le même schéma de liaisons et de types d’atomes. Les chercheurs ont remarqué que ce schéma pouvait être exploité pour construire des algorithmes d’apprentissage automatique à l’aide d’idées issues de la géométrie différentielle et des probabilités. C’est là que les cadres entrent en jeu : Mathématiquement, ces triplets peuvent être modélisés comme des corps rigides appelés « cadres » (courants en physique) qui ont une position et une rotation en 3D.
Ces cadres fournissent à chaque triplet suffisamment d’informations pour lui permettre de connaître son environnement spatial. Il s’agit ensuite pour un algorithme d’apprentissage automatique d’apprendre à déplacer chaque cadre pour construire un squelette de protéine. En apprenant à construire des protéines existantes, on espère que l’algorithme se généralisera et sera capable de créer de nouvelles protéines jamais vues dans la nature.
L’entraînement d’un modèle à la construction de protéines par « diffusion » implique l’injection de bruit qui déplace aléatoirement toutes les images et brouille l’aspect de la protéine d’origine. Le travail de l’algorithme consiste à déplacer et à faire pivoter chaque image jusqu’à ce qu’elle ressemble à la protéine d’origine. Bien que simple, le développement de la diffusion sur les images nécessite des techniques de calcul stochastique sur les plaines de Riemann. Sur le plan théorique, les chercheurs ont mis au point une « diffusion SE(3) » pour l’apprentissage des distributions de probabilité qui relie de manière non triviale les composantes de translation et de rotation de chaque image.
L’art subtil de la diffusion
En 2021, DeepMind a présenté AlphaFold2, un algorithme d’apprentissage profond permettant de prédire les structures 3D des protéines à partir de leurs séquences. La création de protéines synthétiques comporte deux étapes essentielles : la génération et la prédiction. La génération consiste à créer de nouvelles structures et séquences protéiques, tandis que la « prédiction » consiste à déterminer la structure 3D d’une séquence. Ce n’est pas une coïncidence si AlphaFold2 a également utilisé des cadres pour modéliser les protéines. SE(3) diffusion et FrameDiff ont été inspirés pour pousser plus loin l’idée des cadres en les incorporant dans des modèles de diffusion, une technique d’IA générative qui est devenue immensément populaire dans la génération d’images, comme Midjourney, par exemple.
Les cadres et principes communs à la génération et à la prédiction de la structure des protéines signifiaient que les meilleurs modèles des deux côtés étaient compatibles. En collaboration avec l’Institute for Protein Design de l’université de Washington, la diffusion SE(3) est déjà utilisée pour créer et valider expérimentalement de nouvelles protéines. Plus précisément, ils ont combiné la diffusion SE(3) avec RosettaFold2, un outil de prédiction de la structure des protéines semblable à AlphaFold2, ce qui a donné naissance à la « RFdiffusion ». Ce nouvel outil a rapproché les concepteurs de protéines de la résolution de problèmes cruciaux en biotechnologie, notamment le développement de protéines hautement spécifiques pour la conception accélérée de vaccins, l’ingénierie de protéines symétriques pour la délivrance de gènes et l’échafaudage de motifs robustes pour la conception précise d’enzymes.
Les projets futurs de FrameDiff consistent à améliorer la généralité des problèmes qui combinent des exigences multiples pour les produits biologiques tels que les médicaments. Une autre extension consiste à généraliser les modèles à toutes les modalités biologiques, y compris l’ADN et les petites molécules. L’équipe estime qu’en étendant la formation de FrameDiff à des données plus substantielles et en améliorant son processus d’optimisation, elle pourrait générer des structures fondamentales dotées de capacités de conception comparables à celles de RFdiffusion, tout en préservant la simplicité inhérente à FrameDiff.
« Rejeter un modèle de prédiction de structure pré-entraîné [in FrameDiff] ouvre des possibilités de générer rapidement des structures de grande longueur », explique Sergey Ovchinnikov, biologiste informatique à l’université de Harvard. L’approche innovante des chercheurs constitue une étape prometteuse pour surmonter les limites des modèles actuels de prédiction des structures. Même s’il s’agit encore de travaux préliminaires, c’est un pas encourageant dans la bonne direction. Ainsi, la vision de la conception des protéines, qui joue un rôle essentiel pour relever les défis les plus pressants de l’humanité, semble de plus en plus à portée de main, grâce au travail de pionnier de cette équipe de recherche du MIT. »
Yim a rédigé l’article avec Brian Trippe, postdoc de l’Université de Columbia, Valentin De Bortoli, chercheur au Centre national de la recherche scientifique de Paris pour la science des données, Emile Mathieu, postdoc de l’Université de Cambridge, et Arnaud Doucet, professeur de statistiques à l’Université d’Oxford et chercheur principal chez DeepMind. Regina Barzilay et Tommi Jaakkola, professeurs au MIT, ont conseillé la recherche.
Les travaux de l’équipe ont été soutenus, en partie, par la MIT Abdul Latif Jameel Clinic for Machine Learning in Health, des subventions de l’EPSRC et un partenariat de prospérité entre Microsoft Research et l’université de Cambridge, le National Science Foundation Graduate Research Fellowship Program, la subvention NSF Expeditions, le consortium Machine Learning for Pharmaceutical Discovery and Synthesis, le programme DTRA Discovery of Medical Countermeasures Against New and Emerging threats, le programme DARPA Accelerated Molecular Discovery, et la subvention Sanofi Computational Antibody Design. Cette recherche sera présentée à la conférence internationale sur l’apprentissage automatique en juillet.
Référence : « SE(3) diffusion model with application to protein backbone generation » par Jason Yim, Brian L. Trippe, Valentin De Bortoli, Emile Mathieu, Arnaud Doucet, Regina Barzilay et Tommi Jaakkola, 22 mai 2023, Computer Science > ; Machine Learning.
arXiv:2302.02277