Une société gouvernée par l’IA : ce que les résultats révèlent sur l’évolution de notre travail

EN BREF

  • Intelligence artificielle au travail : menace ou opportunité ?
  • Étude des chercheurs de l’université Carnegie Mellon sur des agents IA en entreprise.
  • Agents évalués : Claude, GPT-4o, Google Gemini, Amazon Nova, Meta Llama, Qwen.
  • Échecs : plus de 75% des tâches non réalisées.
  • Meilleur agent : Claude 3.5 Sonnet, avec 24% de réussite.
  • Problèmes d’interprétation des instructions, notamment format des fichiers.
  • Compétences sociales des agents IA insuffisantes.
  • Navigation Web problématique, notamment avec les popups.
  • IA performantes sur des tâches spécifiques, mais loin d’un fonctionnement autonome.
découvrez comment l'intelligence artificielle transforme la gouvernance des entreprises et ce que les résultats révèlent sur l'évolution des pratiques de travail.

Dans un contexte où l’intelligence artificielle prend de plus en plus de place dans nos vies professionnelles, des chercheurs de l’université Carnegie Mellon ont mené une étude révélatrice. Ils ont simulé une entreprise fonctionnant uniquement grâce à des agents d’IA. Les résultats de cette étude soulèvent des questions cruciales sur la capacité de ces technologies à remplacer des travailleurs humains dans divers domaines.

La mise à l’épreuve des agents d’intelligence artificielle

Les chercheurs ont engagé des agents d’intelligence artificielle tels que Claude d’Anthropic, GPT-4o d’OpenAI, Google Gemini, Amazon Nova, Meta Llama, et Qwen d’Alibaba. Ces agents ont été répartis dans divers postes, dont analyste financier, chef de projet et ingénieur logiciel. Leur performance a été scrutée à l’aune des tâches attribuées, qui incluaient l’analyse de bases de données et les visites virtuelles pour la sélection de nouveaux locaux.

Des résultats décevants face aux attentes

Malgré l’espoir que les agents d’IA pourraient remplir efficacement leurs fonctions, les résultats de l’étude se sont révélés largement décevants. Claude 3.5 Sonnet, bien que performant, n’a réussi à accomplir que 24 % des tâches qui lui avaient été confiées. Si l’on considère les tâches partiellement complétées, ce score n’atteint que 34,4 %. En comparaison, Gemini 2.0 Flash et d’autres agents n’ont pas réussi à dépasser 10 % de réussite.

Coûts opérationnels et efficacité

Un autre aspect significatif de l’étude concerne les coûts d’exploitation des agents. Claude 3.5 Sonnet a généré des coûts de 6,34 dollars par tâche, alors que Gemini 2.0 Flash n’a été facturé qu’à 0,79 dollar. Ce constat soulève une question quant à l’équilibre entre performance et coût dans l’utilisation des agents d’intelligence artificielle en entreprise.

Les limites des capacités cognitives des agents IA

Un constat préoccupant émerge : les agents ont souvent échoué à déchiffrer la partie implicite des instructions. Par exemple, lorsqu’on leur demandait de produire un fichier au format « .docx », ils ne comprenaient pas qu’il s’agissait d’un document Microsoft Word. De plus, bien qu’efficaces dans certaines tâches, ils manquent de compétences sociales essentielles, rendant certaines interactions problématiques.

Les défis relatifs à la navigation web

Une des plus grandes difficultés rencontrées par les agents a été la navigation sur le web, en particulier dans la gestion de pop-ups. Parfois, face à des obstacles, les agents ont tendance à prendre des raccourcis, évitant ainsi les parties plus complexes de leurs tâches, croyant ainsi avoir accompli leur mission avec succès. Ceci illustre leur incapacité à fonctionner de manière autonome, une caractéristique pourtant attendue des technologies d’IA avancées.

Pour approfondir ce sujet, il est intéressant de considérer d’autres perspectives sur l’IA et son impact, comme celle relayée par Mark Zuckerberg, et accessible ici : Jeux P2E.

Dans la même catégorie

Contact

Rejoignez Jeux P2E

Explorez, apprenez et Innovez avec Jeux P2E
Liens rapide
Liens utiles

©2025 Copyright – Jeux P2e

Retour en haut