L’approche audacieuse du MIT vers des pilotes automatiques sûrs et fiables pour l’aviation

Qu\'avez vous pensé de cet article ?

Concept de pilote IA

Des chercheurs du MIT ont mis au point une méthode basée sur l’IA pour améliorer la sécurité et la stabilité des robots autonomes, en s’attaquant avec succès au problème « stabiliser-éviter ». En utilisant une approche en deux étapes impliquant l’apprentissage par renforcement profond et l’optimisation mathématique, la méthode a été testée efficacement sur un avion à réaction simulé. Cette méthode pourrait avoir des applications futures dans les robots dynamiques nécessitant sécurité et stabilité, comme les drones de livraison autonomes.

Une nouvelle approche basée sur l’IA pour le contrôle des robots autonomes satisfait les objectifs souvent contradictoires de la sécurité et de la stabilité.

Dans le film « Top Gun : Maverick », Maverick, interprété par Tom Cruise, est chargé d’entraîner de jeunes pilotes à accomplir une mission apparemment impossible : faire voler leurs jets au fond d’un canyon rocheux, en restant si bas par rapport au sol qu’ils ne peuvent pas être détectés par les radars, puis sortir rapidement du canyon à un angle extrême, en évitant les parois rocheuses. Alerte au spoiler : avec l’aide de Maverick, ces pilotes humains accomplissent leur mission.

Une machine, en revanche, aurait du mal à accomplir la même tâche. Pour un avion autonome, par exemple, le chemin le plus direct vers la cible est en conflit avec ce que la machine doit faire pour éviter d’entrer en collision avec les parois du canyon ou pour ne pas être détectée. De nombreuses méthodes d’IA existantes ne sont pas en mesure de surmonter ce conflit, connu sous le nom de problème de stabilisation et d’évitement, et seraient incapables d’atteindre leur objectif en toute sécurité.

Des chercheurs du MIT ont mis au point une technique d’apprentissage automatique capable de conduire de manière autonome une voiture ou un avion dans un scénario « stabiliser-éviter » très difficile, dans lequel le véhicule doit stabiliser sa trajectoire pour arriver et rester dans une certaine zone cible, tout en évitant les obstacles. Crédit : avec l’aimable autorisation des chercheurs

Des chercheurs du MIT ont mis au point une nouvelle technique qui permet de résoudre les problèmes complexes de stabilisation et d’évitement mieux que d’autres méthodes. Leur approche basée sur l’apprentissage automatique égale ou dépasse la sécurité des méthodes existantes tout en décuplant la stabilité, ce qui signifie que l’agent atteint et reste stable dans sa zone d’objectif.

Lors d’une expérience qui ferait la fierté de Maverick, leur technique a permis de piloter efficacement un avion à réaction simulé à travers un couloir étroit sans s’écraser au sol.

« Il s’agit d’un problème difficile qui dure depuis longtemps. Beaucoup de gens se sont penchés sur la question, mais ne savaient pas comment traiter une dynamique aussi complexe et de haute dimension », explique Chuchu Fan, professeur adjoint d’aéronautique et d’astronautique à Wilson, membre du Laboratoire des systèmes d’information et de décision (LIDS) et auteur principal d’un nouvel article sur cette technique.

Fan est rejoint par l’auteur principal Oswin So, un étudiant diplômé. L’article sera présenté à la conférence Robotics : Science and Systems.

Le défi stabiliser-éviter

De nombreuses approches abordent les problèmes complexes de stabilisation et d’évitement en simplifiant le système afin de pouvoir le résoudre avec des mathématiques simples, mais les résultats simplifiés ne résistent souvent pas à la dynamique du monde réel.

Des techniques plus efficaces utilisent l’apprentissage par renforcement, une méthode d’apprentissage automatique où un agent apprend par essai-erreur avec une récompense pour un comportement qui le rapproche d’un objectif. Mais il y a vraiment deux objectifs ici – rester stable et éviter les obstacles – et trouver le bon équilibre est fastidieux.

Les chercheurs du MIT ont décomposé le problème en deux étapes. Tout d’abord, ils ont reformulé le problème de stabilisation et d’évitement en un problème d’optimisation sous contrainte. Dans cette configuration, la résolution de l’optimisation permet à l’agent d’atteindre et de stabiliser son objectif, ce qui signifie qu’il reste dans une certaine région. En appliquant des contraintes, ils s’assurent que l’agent évite les obstacles, explique So.

Pilote automatique Simulation d'avion à réaction

Cette vidéo montre comment les chercheurs ont utilisé leur technique pour piloter efficacement un avion à réaction simulé dans un scénario où il devait se stabiliser vers une cible proche du sol tout en maintenant une très basse altitude et en restant dans un couloir de vol étroit. Crédit : avec l’aimable autorisation des chercheurs

Dans un deuxième temps, ils reformulent ce problème d’optimisation sous contrainte dans une représentation mathématique connue sous le nom de forme épigraphique et le résolvent à l’aide d’un algorithme d’apprentissage par renforcement profond. La forme épigraphique leur permet de contourner les difficultés rencontrées par d’autres méthodes lors de l’utilisation de l’apprentissage par renforcement.

« Mais l’apprentissage par renforcement profond n’est pas conçu pour résoudre la forme épigraphique d’un problème d’optimisation, de sorte que nous ne pouvions pas simplement l’intégrer à notre problème. Nous avons dû dériver les expressions mathématiques qui fonctionnent pour notre système. Une fois que nous avons obtenu ces nouvelles dérivations, nous les avons combinées avec des astuces d’ingénierie existantes utilisées par d’autres méthodes », explique M. So.

Pas de points pour la deuxième place

Pour tester leur approche, ils ont conçu un certain nombre d’expériences de contrôle avec différentes conditions initiales. Par exemple, dans certaines simulations, l’agent autonome doit atteindre et rester à l’intérieur d’une région cible tout en effectuant des manœuvres drastiques pour éviter les obstacles qui sont sur une trajectoire de collision avec lui.

Comparée à plusieurs lignes de base, leur approche est la seule à pouvoir stabiliser toutes les trajectoires tout en maintenant la sécurité. Pour pousser leur méthode encore plus loin, ils l’ont utilisée pour faire voler un avion à réaction simulé dans un scénario que l’on pourrait voir dans un film « Top Gun ». Le jet devait se stabiliser sur une cible proche du sol tout en maintenant une très basse altitude et en restant dans un couloir de vol étroit.

Ce modèle de jet simulé a été mis en libre accès en 2018 et a été conçu par des experts en commandes de vol comme un défi à tester. Les chercheurs pouvaient-ils créer un scénario que leur contrôleur ne pourrait pas piloter ? Mais le modèle était si compliqué qu’il était difficile de travailler avec, et il ne pouvait toujours pas gérer des scénarios complexes, explique Fan.

Le contrôleur des chercheurs du MIT a pu empêcher le jet de s’écraser ou de décrocher tout en se stabilisant jusqu’à l’objectif, bien mieux que n’importe quelle autre solution de référence.

À l’avenir, cette technique pourrait servir de point de départ à la conception de contrôleurs pour des robots hautement dynamiques qui doivent répondre à des exigences de sécurité et de stabilité, comme les drones de livraison autonomes. Elle pourrait également être mise en œuvre dans le cadre d’un système plus vaste. Peut-être que l’algorithme n’est activé que lorsqu’une voiture dérape sur une route enneigée, afin d’aider le conducteur à retrouver une trajectoire stable en toute sécurité.

La navigation dans des scénarios extrêmes qu’un être humain ne serait pas en mesure de gérer est l’aspect le plus intéressant de leur approche, ajoute M. So.

« Nous pensons que l’un des objectifs que nous devrions nous efforcer d’atteindre dans ce domaine est de donner à l’apprentissage par renforcement les garanties de sécurité et de stabilité dont nous aurons besoin pour nous rassurer lorsque nous déploierons ces contrôleurs sur des systèmes critiques. Nous pensons qu’il s’agit d’une première étape prometteuse vers la réalisation de cet objectif », ajoute-t-il.

Pour l’avenir, les chercheurs souhaitent améliorer leur technique afin qu’elle prenne mieux en compte l’incertitude lors de la résolution de l’optimisation. Ils souhaitent également étudier l’efficacité de l’algorithme lorsqu’il est déployé sur du matériel, étant donné qu’il y aura des différences entre la dynamique du modèle et celle du monde réel.

« L’équipe du professeur Fan a amélioré les performances de l’apprentissage par renforcement pour les systèmes dynamiques où la sécurité est importante. Au lieu de se contenter d’atteindre un objectif, ils créent des contrôleurs qui garantissent que le système peut atteindre sa cible en toute sécurité et y rester indéfiniment », explique Stanley Bak, professeur adjoint au département d’informatique de l’université de Stony Brook, qui n’a pas participé à cette recherche. « Leur formulation améliorée permet de générer avec succès des contrôleurs sûrs pour des scénarios complexes, y compris un modèle d’avion à réaction non linéaire à 17 états conçu en partie par des chercheurs du laboratoire de recherche de l’armée de l’air (AFRL), qui incorpore des équations différentielles non linéaires avec des tables de portance et de traînée ».

Référence : « Solving Stabilize-Avoid Optimal Control via Epigraph Form and Deep Reinforcement Learning » par Oswin So et Chuchu Fan, 23 mai 2023, Computer Science &gt ; Robotics.
arXiv:2305.14154

Ce travail est financé en partie par le Lincoln Laboratory du MIT dans le cadre du programme Safety in Aerobatic Flight Regimes.