Des chercheurs du MIT et de l’université de Tufts ont mis au point un nouveau modèle d’IA appelé ConPLex qui accélère considérablement la découverte de médicaments en prédisant les interactions entre médicaments et protéines sans qu’il soit nécessaire de calculer la structure des molécules. Le modèle peut examiner plus de 100 millions de composés en une seule journée, ce qui pourrait réduire considérablement les taux d’échec et les coûts de développement des médicaments.
En appliquant un modèle linguistique aux interactions protéine-médicament, les chercheurs peuvent rapidement passer au crible de vastes bibliothèques de composés médicamenteux potentiels.
D’immenses bibliothèques de composés médicamenteux peuvent constituer des traitements potentiels pour diverses maladies, telles que le cancer ou les maladies cardiaques. Idéalement, les scientifiques aimeraient tester expérimentalement chacun de ces composés contre toutes les cibles possibles, mais ce type de criblage prend beaucoup de temps.
Ces dernières années, les chercheurs ont commencé à utiliser des méthodes informatiques pour sélectionner ces bibliothèques dans l’espoir d’accélérer la découverte de médicaments. Cependant, nombre de ces méthodes sont également très longues, car la plupart d’entre elles calculent la structure tridimensionnelle de chaque protéine cible à partir de sa séquence d’acides aminés, puis utilisent ces structures pour prédire les molécules de médicaments avec lesquelles elle interagira.
Des chercheurs du MIT et de l’université de Tufts ont conçu une autre approche informatique basée sur un type d’algorithme d’intelligence artificielle connu sous le nom de grand modèle de langage. Ces modèles – dont un exemple bien connu est ChatGPT – peuvent analyser d’énormes quantités de texte et déterminer quels mots (ou, dans le cas présent, quels acides aminés) sont les plus susceptibles d’apparaître ensemble. Le nouveau modèle, connu sous le nom de ConPLex, peut faire correspondre des protéines cibles avec des molécules médicamenteuses potentielles sans avoir à effectuer l’étape de calcul intensif des structures des molécules.
Grâce à cette méthode, les chercheurs peuvent passer au crible plus de 100 millions de composés en une seule journée, soit bien plus que n’importe quel modèle existant.
« Ce travail répond au besoin d’un criblage in silico efficace et précis de candidats médicaments potentiels, et l’évolutivité du modèle permet des criblages à grande échelle pour évaluer les effets hors cible, la réorientation des médicaments et la détermination de l’impact des mutations sur la liaison des médicaments », déclare Bonnie Berger, professeur Simons de mathématiques, chef du groupe Computation and Biology au sein du Computer Science and Artificial Intelligence Laboratory (CSAIL) du MIT, et l’un des auteurs principaux de la nouvelle étude.
Lenore Cowen, professeur d’informatique à l’université de Tufts, est également l’un des principaux auteurs de l’article, publié le 8 juin dans les Proceedings of the National Academy of Sciences. Rohit Singh, chercheur au CSAIL, et Samuel Sledzieski, étudiant diplômé du MIT, sont les auteurs principaux de l’article, et Bryan Bryson, professeur agrégé de génie biologique au MIT et membre de l’Institut Ragon du MGH, du MIT et de Harvard, en est également l’auteur. Outre l’article, les chercheurs ont mis leur modèle en ligne à la disposition d’autres scientifiques.
Sommaire
Faire des prédictions
Ces dernières années, les chercheurs en informatique ont fait de grands progrès dans le développement de modèles capables de prédire les structures des protéines sur la base de leurs séquences d’acides aminés. Toutefois, l’utilisation de ces modèles pour prédire comment une vaste bibliothèque de médicaments potentiels pourrait interagir avec une protéine cancéreuse, par exemple, s’est avérée difficile, principalement parce que le calcul des structures tridimensionnelles des protéines nécessite beaucoup de temps et de puissance de calcul.
Un autre obstacle est que ces types de modèles n’ont pas de bons antécédents en ce qui concerne l’élimination des composés connus sous le nom de leurres, qui sont très similaires à un médicament efficace mais qui n’interagissent pas bien avec la cible.
« L’un des défis de longue date dans ce domaine est que ces méthodes sont fragiles, en ce sens que si je donne au modèle un médicament ou une petite molécule qui ressemble presque à la vraie chose, mais qui est légèrement différent d’une manière subtile, le modèle peut encore prédire qu’ils interagiront, même si ce n’est pas le cas », explique Singh.
Les chercheurs ont conçu des modèles capables de surmonter ce type de fragilité, mais ils sont généralement adaptés à une seule classe de molécules médicamenteuses et ne conviennent pas aux cribles à grande échelle, car les calculs prennent trop de temps.
L’équipe du MIT a décidé d’adopter une autre approche, basée sur un modèle de protéine qu’elle a développé pour la première fois en 2019. Travaillant avec une base de données de plus de 20 000 protéines, le modèle de langage encode ces informations dans des représentations numériques significatives de chaque séquence d’acides aminés qui capturent les associations entre la séquence et la structure.
« Avec ces modèles de langage, même les protéines qui ont des séquences très différentes mais qui ont potentiellement des structures ou des fonctions similaires peuvent être représentées de la même manière dans cet espace linguistique, et nous sommes en mesure d’en tirer parti pour faire nos prédictions », explique M. Sledzieski.
Dans leur nouvelle étude, les chercheurs ont appliqué le modèle protéique à la tâche consistant à déterminer quelles séquences de protéines interagiront avec des molécules médicamenteuses spécifiques, les deux ayant des représentations numériques qui sont transformées en un espace commun et partagé par un réseau neuronal. Ils ont entraîné le réseau sur des interactions protéine-médicament connues, ce qui lui a permis d’apprendre à associer des caractéristiques spécifiques des protéines à la capacité de liaison des médicaments, sans avoir à calculer la structure 3D de l’une quelconque des molécules.
« Grâce à cette représentation numérique de haute qualité, le modèle peut court-circuiter entièrement la représentation atomique et, à partir de ces chiffres, prédire si le médicament se liera ou non », explique M. Singh. « L’avantage est qu’il n’est pas nécessaire de passer par une représentation atomique, mais les chiffres contiennent toujours toutes les informations dont vous avez besoin.
Un autre avantage de cette approche est qu’elle prend en compte la flexibilité des structures protéiques, qui peuvent être « tordues » et prendre des formes légèrement différentes lorsqu’elles interagissent avec une molécule de médicament.
Haute affinité
Pour que leur modèle soit moins susceptible d’être trompé par des molécules de médicaments leurres, les chercheurs ont également incorporé une étape d’entraînement basée sur le concept de l’apprentissage contrastif. Selon cette approche, les chercheurs donnent au modèle des exemples de « vrais » médicaments et d’imposteurs et lui apprennent à les distinguer.
Les chercheurs ont ensuite testé leur modèle en passant au crible une bibliothèque d’environ 4 700 molécules médicamenteuses candidates pour déterminer leur capacité à se lier à un ensemble de 51 enzymes connues sous le nom de protéines kinases.
Parmi les meilleurs résultats, les chercheurs ont choisi 19 paires médicament-protéine pour les tester expérimentalement. Les expériences ont révélé que sur ces 19 paires, 12 avaient une forte affinité de liaison (de l’ordre du nanomolaire), alors que la quasi-totalité des nombreuses autres paires médicament-protéine possibles n’auraient eu aucune affinité. Quatre de ces paires se lient avec une affinité extrêmement élevée, sub-nanomolaire (si forte qu’une concentration minime de médicament, de l’ordre de quelques parties par milliard, inhibe la protéine).
Bien que les chercheurs se soient principalement concentrés sur le criblage de petites molécules dans cette étude, ils travaillent maintenant à l’application de cette approche à d’autres types de médicaments, tels que les anticorps thérapeutiques. Ce type de modélisation pourrait également s’avérer utile pour effectuer des tests de toxicité de composés médicamenteux potentiels, afin de s’assurer qu’ils n’ont pas d’effets secondaires indésirables avant de les tester sur des modèles animaux.
« Si la découverte de médicaments est si coûteuse, c’est en partie parce que les taux d’échec sont élevés. Si nous pouvons réduire ces taux d’échec en disant d’emblée que ce médicament n’est pas susceptible de fonctionner, cela pourrait contribuer à réduire considérablement le coût de la découverte de médicaments », explique M. Singh.
Cette nouvelle approche « représente une avancée significative dans la prédiction des interactions entre les médicaments et les cibles et ouvre de nouvelles perspectives de recherche pour améliorer encore ses capacités », déclare Eytan Ruppin, chef du Cancer Data Science Laboratory au National Cancer Institute, qui n’a pas participé à l’étude. « Par exemple, l’incorporation d’informations structurelles dans l’espace latent ou l’exploration de méthodes de génération moléculaire pour générer des leurres pourraient encore améliorer les prédictions ».
Référence : « Contrastive learning in protein language space predicts interactions between drugs and protein targets » par Rohit Singh, Samuel Sledzieski, Bryan Bryson, Lenore Cowen et Bonnie Berger, 8 juin 2023, Proceedings of the National Academy of Sciences.
DOI : 10.1073/pnas.2220778120
Cette recherche a été financée par les National Institutes of Health, la National Science Foundation et la Phillip and Susan Ragon Foundation.