L’« AI Agent Index » du MIT comme carte du territoire agentique

La première référence indépendante sur les agents IA

Un agent IA pourrait accomplir le travail de l’étudiant·e de but en blanc. La question n’est plus seulement de savoir si l’IA a été utilisée, mais à quel moment un agent IA remplace les apprentissages attendus.

Les outils d’IA conversationnels sont désormais présents dans les pratiques numériques des milieux d’enseignement. Une nouvelle catégorie émerge : les agents IA, des systèmes capables d’agir de manière autonome dans le monde numérique, et pas seulement de répondre à des questions. Leur documentation publique reste très lacunaire.

Selon le sondage The state of AI in 2025: Agents, innovation, and transformation mené par McKinsey & Company en 2025 auprès de 1 993 dirigeantes et dirigeants dans 105 pays, 62 % des organisations expérimentaient déjà des agents IA. Staufer et al. (2026) qui ont rédigé le 2025 AI Agent Index (PDF, 1 Mo) rappellent que ces estimations sont sujettes aux conflits d’intérêts, mais qu’elles reflètent une montée en importance indéniable.

La communauté étudiante actuelle entre sur un marché du travail où ces outils sont déjà opérationnels, ce qui rend leur compréhension pertinente dès aujourd’hui dans les milieux éducatifs.

« Levels of Autonomy for AI Agents » : une distinction essentielle

Pour bien saisir l’ampleur du changement, il faut distinguer la génération de contenu de l’agent conversationnel de l’action des agents IA.

Un outil d’IA générative conversationnel fonctionne en répondant à des questions : après avoir reçu une requête, il génère une réponse, puis attend la prochaine instruction. L’humain garde le contrôle à chaque étape, en décidant de la prochaine action.

Un agent IA fonctionne autrement. Imaginons un assistant virtuel de recherche à qui on confie une tâche globale. Si on lui donne la requête « analyse ces cinq documents, identifie les idées communes et produis un résumé structuré », l’agent va lui-même diviser cette tâche en sous-tâches, lire chaque texte, comparer ses notes et rédiger la synthèse, sans que chaque étape lui soit dictée.

Ce n’est pas nécessairement un outil différent : ChatGPT, Claude ou Gemini peuvent fonctionner selon des niveaux d’autonomie très différents selon leur configuration. Un cadre théorique, développé par Feng et al. (2025) et appliqué empiriquement dans l’AI Agent Index par le même groupe de recherche, mesure ce continuum sur une échelle de L1 à L5, dont voici la transposition en contexte d’apprentissage :

– L1 (L’humain comme opérateur)

La personne utilisatrice dirige et prend les décisions à chaque étape ; le système d’IA générative exécute.
Exemple : la personne étudiante demande une définition à un outil de clavardage, lit la réponse, puis choisit de façon autonome la question suivante. L’outil n’agit jamais sans instruction directe.

– L2 (L’humain comme collaborateur)

La personne utilisatrice et l’agent IA planifient, délèguent et exécutent ensemble. L’être humain intervient régulièrement pour orienter, corriger ou valider.
Exemple : dans le mode de clavardage standard de Perplexity, l’outil interroge plusieurs sources et propose une synthèse, mais la personne étudiante relance, réoriente ou précise à chaque échange. L’initiative est partagée.

– L3 (L’humain comme consultant)

L’agent IA prend des initiatives sur des horizons étendus mais consulte l’humain pour son expertise ou ses préférences. L’être humain n’est sollicité qu’aux moments critiques.
Exemple : ChatGPT Agent enchaîne plusieurs recherches liées de façon autonome, mais demande une confirmation avant d’effectuer une action irréversible comme un achat en ligne.

– L4 (L’humain comme approbateur)

L’agent IA opère de façon largement autonome. L’être humain n’intervient que pour approuver les actions à risque élevé ou prédéfinis.
Exemple : un agent IA navigateur qui consulte plusieurs sites, remplit des formulaires et compare des offres de façon autonome. Il s’arrête pour demander une confirmation explicite avant de soumettre une transaction financière ou de créer un compte.

– L5 (L’humain comme observateur)

L’agent IA réalise sa tâche du début à la fin sans solliciter d’intervention sous la surveillance de la personne utilisatrice. L’humain n’observe que le résultat final.
Exemple : le mode Perplexity Deep Research, qui, une fois lancé, mène l’ensemble du processus de recherche et de synthèse sans demander de validation intermédiaire.

Ainsi, au sein d’un même produit, le niveau d’autonomie peut varier considérablement : le mode conversation standard de Perplexity se situe à L2, tandis que son mode Deep Research atteint L5. Les agents-navigateurs (des systèmes comme Perplexity Comet qui prennent le contrôle du navigateur web pour accomplir des tâches complexes) opèrent à L4–L5 avec une particularité supplémentaire : dans leur configuration actuelle, ils ne peuvent pas être interrompus ou redirigés en cours d’exécution. C’est à partir de L2 qu’un système est reconnu comme agent IA au sens de cet index.

Ce que l’« AI Agent Index » documente et ce qu’il révèle

Produit par neuf personnes expertes de renom, liées à huit universités (dont le MIT, Stanford, Harvard Law School et Cambridge), The 2025 AI Agent Index analyse 30 agents majeurs selon 45 critères, à partir de sources exclusivement publiques, sans intérêt financier dans les outils évalués.

Quatre constats structurent les résultats.

1— La transparence est asymétrique et les risques de sécurité restent opaques

Contrairement à d’autres secteurs industriels où des organismes indépendants imposent la publication de données vérifiables sur la sécurité, aucune obligation équivalente n’existe encore en IA. Les entreprises qui développent des agents IA documentent abondamment les capacités de leurs outils,mais très peu leur sécurité. Seuls 4 agents IA sur 30 possèdent un document auto-publié par le développeur décrivant le fonctionnement réel d’un agent IA et ses limites évaluées (appelé system card, ou fiche système). Ce sont : ChatGPT Agent, OpenAI Codex, Claude Code et Gemini 2.5 Computer Use.

Par ailleurs, 25 des 30 agents IA ne divulguent aucun résultat de sécurité interne, et les audits par des tiers indépendants ne concernent que 3 agents IA sur 30.

L’équipe de recherche décrit cette pratique comme une forme d’éthique de façade ou de blanchiment éthique (« weaker form of safety washing ») : les cadres éthiques publiés restent généraux et rassurants, tandis que les données empiriques permettant d’évaluer la fiabilité réelle des systèmes sont divulguées de manière sélective.

2— La responsabilité est fragmentée, un problème des pièces détachées

Un agent IA est souvent le résultat d’un assemblage : le laboratoire A fabrique le « moteur » (le modèle de base), l’entreprise B l’intègre dans un agent, et l’entreprise C le déploie auprès du public. Si un agent IA commet une erreur grave, la responsabilité est partagée entre ces entités, aucune ne contrôlant l’ensemble.

L’index conclut que la gestion des risques doit s’étendre jusqu’aux laboratoires concepteurs des modèles fondateurs. La quasi-totalité du marché repose par ailleurs sur trois familles de modèles seulement (GPT, Claude et Gemini), créant des points de défaillance uniques : pannes, régressions de sécurité ou changements de tarification chez un fournisseur affectent simultanément d’innombrables outils.

3— La divulgation de l’identité de l’IA est pratiquement inexistante.

Parmi les 30 agents IA, 21 n’indiquent nulle part qu’ils sont des systèmes automatisés lorsqu’ils interagissent avec des personnes humaines ou d’autres sites Web. En d’autres termes, quand un agent IA accomplit une tâche sur le Web au nom de la personne utilisatrice, ni cette personne ni les sites visités ne sont nécessairement informés qu’un robot est aux commandes.

4— Les comportements sur le Web se règlent devant les tribunaux

Les agents IA doivent avoir accès à de grandes quantités de pages Web afin d’agir. Or, plusieurs sites publient des consignes (des fichiers robots.txt) limitant ou interdisant l’accès automatisé à leurs contenus. Les agents IA navigateurs ignorent souvent ces instructions : certains sont explicitement mis en marché pour leur capacité à contourner les systèmes de protection en imitant le trafic Web humain (chaînes d’identification du navigateur, adresses IP résidentielles).

Certaines collectes de données font l’objet de contentieux en cours : Dow Jones contre Perplexity AI, Reddit contre Anthropic, New York Times contre Microsoft, et Amazon contre Perplexity AI sont mentionnés dans ce document. Lorsque l’équipe de recherche a tenté de clarifier les choses avec les entreprises, seules 23 % d’entre elles ont répondu d’une manière ou d’une autre, et seulement 4 sur 30 ont fourni des commentaires approfondis.

Conséquences pour les milieux d’enseignement

Ces observations, notamment le manque de transparence sur la sécurité et la fragmentation de la responsabilité, renforcent la nécessité d’une approche pédagogique et institutionnelle éclairée.

Pour la communauté étudiante en apprentissage

La distinction entre niveaux d’autonomie est cruciale pour l’apprentissage. En appliquant l’échelle L1–L5 développée par Feng et al. (2025) et appliquée empiriquement dans l’AI Agent Index par le même groupe de recherche, on constate qu’à L1–L2, l’outil accompagne : l’étudiant·e garde le contrôle de chaque étape et reste décideur·euse. À L4–L5, l’agent réalise l’ensemble de la tâche et l’étudiant·e n’observe que le résultat.

La question pertinente n’est donc pas seulement de savoir si l’usage de l’IA est autorisé, mais plutôt à quel niveau d’autonomie l’outil a été configuré, et si les étapes déléguées sont précisément celles où l’apprentissage de l’étudiant ou de l’étudiante était censé se construire.

Pour le corps enseignant

Les réponses pédagogiques les plus solides demeurent les mêmes : traces de démarche, explicitations orales, tâches ancrées dans le contexte unique et non reproductible du cours.

Un agent de niveau L3 à L5 peut enchaîner lecture, analyse et synthèse sans intervention humaine entre les étapes. Le Conseil de l’IA et du numérique (CIANum, 2026) documente un risque technique inhérent à cette architecture : les effets en cascade font que les erreurs de raisonnement commises à une étape se cumulent et s’amplifient aux étapes suivantes. Transposé dans un contexte pédagogique (c’est une inférence, non une conclusion de la source), cela signifie qu’un étudiant ou une étudiante peut recevoir un document final très bien rédigé sans avoir la moindre conscience des erreurs logiques commises en cours de traitement. Ce risque est d’autant plus sérieux que l’index du MIT mentionne que des agents IA ont déjà produit des articles ayant passé l’évaluation par des pairs et publiés dans des revues scientifiques.

Pour les équipes pédagogiques et institutionnelles

Le Règlement européen sur l’IA classe l’éducation parmi les secteurs à haut risque, exigeant documentation, traçabilité et supervision humaine. Le CIANum souligne que ce texte ne réglemente que partiellement l’IA agentique. Les exigences dépendent du niveau de risque associé à chaque utilisation, plutôt que du type de système. Cette base réglementaire peut servir de fondement pour élaborer des politiques de réglementation institutionnelle. L’« AI Agent Index » fournit précisément le vocabulaire et les critères empiriques (niveaux d’autonomie, existence ou absence d’une fiche système, présence ou non d’audits indépendants) nécessaires pour évaluer concrètement ce que chaque outil délègue et avec quelle garantie documentée.

Références

CIANum. (2026, février). Les intelligences artificielles à l’heure de la vague agentique : de quoi parle-t-on ? (Note). Conseil de l’IA et du numérique. https://www.conseil-ia-numerique.fr/files/uploads/2026/IA%20agentique%20CIANum_all.pdf

Feng, K., Wei, K., Bailey, L., Duan, Y., Yang, M., Ozisik, A. P., Casper, S., & Kolt, N. (2025, juin). Levels of autonomy for AI agents. Knight First Amendment Institute, Columbia University. https://knightcolumbia.org/content/levels-of-autonomy-for-ai-agents-1

McKinsey & Company. (2025, novembre). The state of AI in 2025 : Agents, innovation, and transformation. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Staufer, L., Feng, K., Wei, K., Bailey, L., Duan, Y., Yang, M., Ozisik, A. P., Casper, S., & Kolt, N. (2026, 19 février). The 2025 AI Agent Index : Documenting technical and safety features of deployed agentic AI systems. arXiv. https://arxiv.org/abs/2602.17753

2602.17753v1 Télécharger

* Rédaction assistée en utilisant l’aide de l’outil IA Claude Sonnet 4.6 Thinking