|
EN BREF
|

Dans un contexte où l’intelligence artificielle prend de plus en plus de place dans nos vies professionnelles, des chercheurs de l’université Carnegie Mellon ont mené une étude révélatrice. Ils ont simulé une entreprise fonctionnant uniquement grâce à des agents d’IA. Les résultats de cette étude soulèvent des questions cruciales sur la capacité de ces technologies à remplacer des travailleurs humains dans divers domaines.
Sommaire
ToggleLa mise à l’épreuve des agents d’intelligence artificielle
Les chercheurs ont engagé des agents d’intelligence artificielle tels que Claude d’Anthropic, GPT-4o d’OpenAI, Google Gemini, Amazon Nova, Meta Llama, et Qwen d’Alibaba. Ces agents ont été répartis dans divers postes, dont analyste financier, chef de projet et ingénieur logiciel. Leur performance a été scrutée à l’aune des tâches attribuées, qui incluaient l’analyse de bases de données et les visites virtuelles pour la sélection de nouveaux locaux.
Des résultats décevants face aux attentes
Malgré l’espoir que les agents d’IA pourraient remplir efficacement leurs fonctions, les résultats de l’étude se sont révélés largement décevants. Claude 3.5 Sonnet, bien que performant, n’a réussi à accomplir que 24 % des tâches qui lui avaient été confiées. Si l’on considère les tâches partiellement complétées, ce score n’atteint que 34,4 %. En comparaison, Gemini 2.0 Flash et d’autres agents n’ont pas réussi à dépasser 10 % de réussite.
Coûts opérationnels et efficacité
Un autre aspect significatif de l’étude concerne les coûts d’exploitation des agents. Claude 3.5 Sonnet a généré des coûts de 6,34 dollars par tâche, alors que Gemini 2.0 Flash n’a été facturé qu’à 0,79 dollar. Ce constat soulève une question quant à l’équilibre entre performance et coût dans l’utilisation des agents d’intelligence artificielle en entreprise.
Les limites des capacités cognitives des agents IA
Un constat préoccupant émerge : les agents ont souvent échoué à déchiffrer la partie implicite des instructions. Par exemple, lorsqu’on leur demandait de produire un fichier au format « .docx », ils ne comprenaient pas qu’il s’agissait d’un document Microsoft Word. De plus, bien qu’efficaces dans certaines tâches, ils manquent de compétences sociales essentielles, rendant certaines interactions problématiques.
Les défis relatifs à la navigation web
Une des plus grandes difficultés rencontrées par les agents a été la navigation sur le web, en particulier dans la gestion de pop-ups. Parfois, face à des obstacles, les agents ont tendance à prendre des raccourcis, évitant ainsi les parties plus complexes de leurs tâches, croyant ainsi avoir accompli leur mission avec succès. Ceci illustre leur incapacité à fonctionner de manière autonome, une caractéristique pourtant attendue des technologies d’IA avancées.
Pour approfondir ce sujet, il est intéressant de considérer d’autres perspectives sur l’IA et son impact, comme celle relayée par Mark Zuckerberg, et accessible ici : Jeux P2E.
