3 février 2026

Quand l’IA s’autoévalue pour mieux répondre

Prompting avancé

L’objectif n’est plus seulement d’interroger la base de connaissances du modèle, mais de guider la manière dont il « pense ».

L’utilisation des grands modèles de langage (LLM) évolue à grande vitesse. Au-delà de la simple rédactique (prompt engineering), de nouvelles techniques émergent pour structurer et fiabiliser le raisonnement de l’IA générative.

L’expérimentation présentée ici est née d’une question pragmatique que nous nous sommes posée au Carrefour d’innovation et de pédagogie universitaire de l’UQAM en préparant un atelier de rédactique Main sur les touches.

Peut-on améliorer la fiabilité de la technique de la « Chaîne de pensée » (Chain of Thought—CoT) en y ajoutant l’auto-consistance (self-consistency) ?

L’un explicite la démarche de la pensée algorithmique étape par étape pour répondre à la requête, l’autre vérifie la cohérence de cette pensée.

Mais pour ne pas vous perdre, voici quelques précisions sur ces deux techniques d’ingénierie de requêtes (prompts) orientées vers le raisonnement.

1. Chaîne de pensée (Chain-of-Thought)

Validée par Google (Wei et al., 2022), Validée empiriquement par Wei et al. (2022), la technique de la CoT transpose les principes de la pédagogie explicite au raisonnement algorithmique. Elle incite l’agent conversationnel à détailler les étapes intermédiaires pour générer sa réponse.

Par analogie, imaginez un élève confronté à un problème mathématique complexe. S’il répond instinctivement, il a plus de chances de se tromper. Cependant, s’il explique chaque étape du calcul sur papier, sa précision s’améliore considérablement. De la même manière, le modèle de langage CoT transforme une prédiction de résultat en une prédiction de processus.

Toutefois, la CoT reste un processus linéaire. Si le modèle commet une erreur de logique au début de la chaîne, toute la réponse finale est compromise. C’est un raisonnement unique, donc fragile.

2. Auto-consistance (Self-consistency)

Dans leur article fondateur, Wang et al. (2022) démontrent que l’auto-consistance améliore significativement la fiabilité de la CoT sur les tâches de raisonnement arithmétique et de bon sens. La méthode consiste à :

  1. Générer plusieurs chemins de réflexion distincts pour une même question.
  2. Comparer les résultats.
  3. Sélectionner la réponse majoritaire.

Techniquement, l’auto-consistance est une stratégie de décodage qui s’applique en complément de la CoT. Elle ne modifie pas la requête, mais le processus de génération : au lieu de produire une seule chaîne de pensée, le système en génère plusieurs et sélectionne la réponse majoritaire (marginalisation par vote).

En résumé, si la CoT demande à un expert de réfléchir à voix haute, l’auto-consistance consiste à demander à dix experts de résoudre le problème séparément, puis d’adopter la réponse qui fait consensus. Cela permet d’éliminer les erreurs d’inattention ou les hallucinations aléatoires.

Une expérimentation qui tourne en mise en abime

« Relis ta réponse précédente. Identifie toute faille logique, approximation conceptuelle ou contradiction interne. Reformule ensuite ta réponse pour maximiser sa cohérence. »


Nous avons testé ces concepts en demandant à l’outil Gemini Pro 3 : « Parfois je mentionne le CoT dans mes requêtes. Dois-je aussi utiliser l’auto-consistance ? »

La discussion s’est ensuite transformée en expérimentation en direct. Au lieu d’accepter la première réponse, nous avons appliqué une contrainte récursive stricte.

Cette requête a été répétée quatre fois consécutivement. Nous avons provoqué une mise en abyme : l’outil d’IA n’analyse plus seulement le sujet, elle critique sa propre production. Voici l’évolution du résultat :

  • Tour 1 (La nuance technique) : L’outil d’IA générative admet que l’auto-consistance stricte n’est pas activable via une interface conversationnelle standard, mais peut être simulée par des stratégies de triangulation.
  • Tour 2 (La clarification conceptuelle) : L’agent conversationnel corrige ses propres approximations terminologiques et admet qu’un « vote majoritaire » est inapplicable pour des tâches rédactionnelles ouvertes (où il n’y a pas une seule bonne réponse unique).
  • Tour 3 (La distinction taxinomique) : L’outil d’IA générative distingue enfin les objectifs. L’auto-consistance sert à la convergence (trouver la réponse probable), tandis que pour des tâches complexes, on cherche l’exploration. L’agent conversationnel introduit alors le concept d’Arbre de pensées (Tree of Thoughts – ToT).
  • Tour 4 (L’application) : L’outil d’IA générative finit par appliquer lui-même la méthode ToT qu’elle recommande pour structurer sa réponse finale : exploration de pistes divergentes, critique interne, puis synthèse.

La troisième approche proposée : L’Arbre de pensées

La technique de l’Arbre de pensées (ToT) (Yao et al., 2023) permet donc au système de ne plus penser en ligne droite, mais en arborescence. Il explore simultanément plusieurs pistes, évalue si une idée est prometteuse, et peut faire marche arrière (backtracking) s’il fait fausse route.

Les résultats montrent que, contrairement à GPT-4 avec la Chaîne de pensée qui ne réussissait que 4 % des tâches du « Game of 24 », l’Arbre de pensées a un taux de réussite de 74 % (Yao et al., 2023).

Limite épistémologique : Même avec le ToT, le système reste captif de son architecture probabiliste. D’une part, lorsqu’on lui demande de synthétiser ses propres branches dans une même conversation, il reste « juge et partie » et risque de valider ses erreurs par biais de confirmation. D’autre part, si une erreur factuelle ou un biais conceptuel affecte sa base de connaissances (les données d’entraînement), aucune technique de prompting ne peut compenser cette lacune intrinsèque. D’où l’importance maintenue de la validation humaine experte, particulièrement dans les domaines où la précision factuelle est critique (sciences exactes, droit, médecine).

Limites structurelles

  1. Erreurs et hallucinations factuelles : Aucune technique de prompting ne peut corriger les erreurs présentes dans les données d’entraînement.
  2. Tâches nécessitant une expertise disciplinaire pointue : Le ToT explore, mais ne garantit pas la validité du contenu généré.
  3. Coût computationnel : L’auto-consistance et le ToT multiplient les inférences, ce qui peut être prohibitif pour une utilisation intensive.

Quand utiliser quelle technique ?

Type de tâcheTechnique recommandéeJustification
Question fermée avec réponse unique (calcul, logique formelle)Chaîne de pensée
+
Auto-consistance
Convergence statistique vers la bonne réponse
Tâche créative ou ouverte (analyse, rédaction)L’Arbre de pensées (ToT)Exploration de perspectives multiples sans réponse unique

Ces techniques augmentent la qualité du raisonnement simulé, mais ne remplacent jamais l’évaluation critique par un expert disciplinaire.

Un protocole robuste pour vos requêtes

Pour appliquer le prompting avancé dans votre pratique quotidienne, voici un protocole de requête inspiré du ToT et de la relecture critique, prêt à l’emploi :

  1. Exploration : « Propose trois pistes d’analyse réellement différentes (cadres théoriques, hypothèses, angles morts). Ne rédige pas encore la réponse finale. »
  2. Évaluation : « Pour chaque piste, indique une force, une limite, et un risque de biais. »
  3. Consolidation : « Construis une réponse finale en intégrant ce qui résiste le mieux aux limites identifiées. »
  4. Relecture critique : « Relis la réponse finale et repère toute confusion terminologique ou les contradictions, puis reformule. »

Ce protocole ne garantit pas la réponse absolue, mais il impose une discipline intellectuelle essentielle pour différencier les options, tester les arguments et corriger ce qui ne tient pas avant de conclure.

Références

  • Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., & Zhou, D. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv. https://arxiv.org/abs/2203.11171
  • Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. arXiv. https://arxiv.org/abs/2201.11903
  • Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T. L., Cao, Y., & Narasimhan, K. (2023). Tree of thoughts: Deliberate problem solving with large language models. arXiv. https://arxiv.org/abs/2305.10601

Sujets similaires