L’IA du MIT apprend le langage moléculaire pour le développement rapide de matériaux et la découverte de médicaments

Qu\'avez vous pensé de cet article ?

Le nouveau système d’IA du MIT-Watson AI Lab rationalise considérablement la découverte de médicaments et de matériaux en prédisant avec précision les propriétés moléculaires avec un minimum de données. Le système s’appuie sur une « grammaire moléculaire » apprise par apprentissage par renforcement pour générer efficacement de nouvelles molécules. Cette méthode a montré une efficacité remarquable même avec des ensembles de données de moins de 100 échantillons.

Ce système d’IA n’a besoin que d’une petite quantité de données pour prédire les propriétés moléculaires, ce qui pourrait accélérer la découverte de médicaments et le développement de matériaux.

La découverte de nouveaux matériaux et médicaments implique généralement un processus manuel d’essais et d’erreurs qui peut prendre des décennies et coûter des millions de dollars. Pour rationaliser ce processus, les scientifiques utilisent souvent l’apprentissage automatique pour prédire les propriétés moléculaires et réduire le nombre de molécules qu’ils doivent synthétiser et tester en laboratoire.

Des chercheurs du MIT et du MIT-Watson AI Lab ont développé un nouveau cadre unifié capable de prédire simultanément les propriétés moléculaires et de générer de nouvelles molécules beaucoup plus efficacement que ces approches populaires d’apprentissage profond.

Pour apprendre à un modèle d’apprentissage automatique à prédire les propriétés biologiques ou mécaniques d’une molécule, les chercheurs doivent lui montrer des millions de structures moléculaires étiquetées – un processus connu sous le nom d’entraînement. En raison du coût de la découverte des molécules et des difficultés liées à l’étiquetage manuel de millions de structures, il est souvent difficile d’obtenir de grands ensembles de données d’apprentissage, ce qui limite l’efficacité des approches d’apprentissage automatique.

En revanche, le système créé par les chercheurs du MIT peut prédire efficacement les propriétés moléculaires en utilisant seulement une petite quantité de données. Leur système a une compréhension sous-jacente des règles qui dictent comment les blocs de construction se combinent pour produire des molécules valides. Ces règles saisissent les similitudes entre les structures moléculaires, ce qui aide le système à générer de nouvelles molécules et à prédire leurs propriétés d’une manière efficace en termes de données.

Cette méthode a surpassé d’autres approches d’apprentissage automatique sur des ensembles de données de petite et de grande taille, et a été capable de prédire avec précision les propriétés moléculaires et de générer des molécules viables à partir d’un ensemble de données comportant moins de 100 échantillons.

Cadre unifié pour prédire les propriétés moléculaires

Des chercheurs du MIT et du MIT-Watson AI Lab ont mis au point un cadre unifié qui utilise l’apprentissage automatique pour prédire simultanément les propriétés moléculaires et générer de nouvelles molécules en utilisant seulement une petite quantité de données pour la formation. Crédit : Jose-Luis Olivares/MIT

« Notre objectif avec ce projet est d’utiliser des méthodes basées sur les données pour accélérer la découverte de nouvelles molécules, de sorte que vous puissiez former un modèle pour faire la prédiction sans toutes ces expériences coûteuses », explique l’auteur principal, Minghao Guo, étudiant diplômé en sciences informatiques et en génie électrique (EECS).

Les coauteurs de Guo sont Veronika Thost, Payel Das et Jie Chen, membres du personnel de recherche du MIT-IBM Watson AI Lab, Samuel Song ’23 et Adithya Balachandran ’23, récemment diplômés du MIT, et l’auteur principal Wojciech Matusik, professeur de génie électrique et d’informatique et membre du MIT-IBM Watson AI Lab, qui dirige le Computational Design and Fabrication Group au sein du MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Les travaux de recherche seront présentés lors de la conférence internationale sur l’apprentissage automatique (International Conference for Machine Learning).

Apprendre le langage des molécules

Pour obtenir les meilleurs résultats avec les modèles d’apprentissage automatique, les scientifiques ont besoin d’ensembles de données d’entraînement comprenant des millions de molécules ayant des propriétés similaires à celles qu’ils espèrent découvrir. En réalité, ces ensembles de données spécifiques à un domaine sont généralement très petits. Les chercheurs utilisent donc des modèles qui ont été pré-entraînés sur de grands ensembles de données de molécules générales, qu’ils appliquent à un ensemble de données beaucoup plus petit et ciblé. Cependant, comme ces modèles n’ont pas acquis beaucoup de connaissances spécifiques au domaine, ils ont tendance à donner de mauvais résultats.

L’équipe du MIT a adopté une approche différente. Elle a créé un système d’apprentissage automatique qui apprend le « langage » des molécules – ce que l’on appelle une grammaire moléculaire – en utilisant uniquement un petit ensemble de données spécifiques à un domaine. Il utilise cette grammaire pour construire des molécules viables et prédire leurs propriétés.

Dans la théorie du langage, on génère des mots, des phrases ou des paragraphes sur la base d’un ensemble de règles de grammaire. On peut considérer la grammaire moléculaire de la même manière. Il s’agit d’un ensemble de règles de production qui dictent comment générer des molécules ou des polymères en combinant des atomes et des sous-structures.

Tout comme une grammaire linguistique, qui peut générer une pléthore de phrases en utilisant les mêmes règles, une grammaire moléculaire peut représenter un grand nombre de molécules. Les molécules ayant des structures similaires utilisent les mêmes règles de production de la grammaire, et le système apprend à comprendre ces similitudes.

Étant donné que les molécules structurellement similaires ont souvent des propriétés similaires, le système utilise sa connaissance sous-jacente de la similarité moléculaire pour prédire plus efficacement les propriétés des nouvelles molécules.

« Une fois que nous disposons de cette grammaire comme représentation de toutes les molécules différentes, nous pouvons l’utiliser pour stimuler le processus de prédiction des propriétés », explique Guo.

Le système apprend les règles de production d’une grammaire moléculaire à l’aide de l’apprentissage par renforcement – un processus d’essai et d’erreur dans lequel le modèle est récompensé pour un comportement qui lui permet de se rapprocher d’un objectif.

Mais comme il peut y avoir des milliards de façons de combiner les atomes et les sous-structures, le processus d’apprentissage des règles de production d’une grammaire serait trop coûteux en termes de calcul pour tout autre ensemble de données que le plus petit.

Les chercheurs ont découplé la grammaire moléculaire en deux parties. La première partie, appelée métagramme, est une grammaire générale, largement applicable, qu’ils conçoivent manuellement et qu’ils donnent au système dès le départ. Ensuite, le système n’a plus qu’à apprendre une grammaire beaucoup plus petite, spécifique à la molécule, à partir de l’ensemble des données du domaine. Cette approche hiérarchique accélère le processus d’apprentissage.

De grands résultats, de petits ensembles de données

Lors d’expériences, le nouveau système des chercheurs a généré simultanément des molécules et des polymères viables et a prédit leurs propriétés avec plus de précision que plusieurs approches populaires d’apprentissage automatique, même lorsque les ensembles de données spécifiques au domaine ne comportaient que quelques centaines d’échantillons. Certaines autres méthodes nécessitaient également une étape de préapprentissage coûteuse que le nouveau système évite.

La technique s’est avérée particulièrement efficace pour prédire les propriétés physiques des polymères, telles que la température de transition vitreuse, qui est la température requise pour qu’un matériau passe de l’état solide à l’état liquide. L’obtention manuelle de ces informations est souvent extrêmement coûteuse car les expériences nécessitent des températures et des pressions extrêmement élevées.

Pour pousser leur approche plus loin, les chercheurs ont réduit de plus de moitié l’un des ensembles d’entraînement, qui ne comptait plus que 94 échantillons. Leur modèle a tout de même obtenu des résultats comparables à ceux des méthodes formées à partir de l’ensemble des données.

« Cette représentation basée sur la grammaire est très puissante. Et comme la grammaire elle-même est une représentation très générale, elle peut être déployée pour différents types de données sous forme de graphes. Nous essayons d’identifier d’autres applications que la chimie ou la science des matériaux », explique M. Guo.

À l’avenir, les chercheurs souhaitent également étendre leur grammaire moléculaire actuelle à la géométrie 3D des molécules et des polymères, ce qui est essentiel pour comprendre les interactions entre les chaînes de polymères. Ils développent également une interface qui montrerait à l’utilisateur les règles de production de la grammaire apprise et solliciterait un retour d’information pour corriger les règles qui pourraient être erronées, ce qui augmenterait la précision du système.

Référence : La géométrie induite par la grammaire pour une prédiction efficace des propriétés moléculaires en fonction des données

Ce travail est financé en partie par le MIT-IBM Watson AI Lab et sa société membre, Evonik.