Un jour, un outil d'IA générative

Focus

Le débat qui n’en est peut-être pas un

Focus de la lettre 38

En testant Nodalist cette semaine, j’ai lancé le mode “AI Storming” sur un sujet qui, beaucoup le savent ici, m’occupe au quotidien dans mon travail : les IA génératives en éducation, usages et limites. Six modèles de langage, Gemini, ChatGPT, Claude, Grok, Kimi et DeepSeek, ont donc participé à ce que l’outil appelle un “débat” avec Gemini qui jouait le rôle de modérateur.

Je m’arrête déjà sur les mots. “AI Storming”, comme brainstorming, des cerveaux qui tempêtent. “Débat”, qui implique une conscience de l’autre, une intention d’argumenter et une volonté de convaincre. On est déjà en train d’anthropomorphiser les modèles de langage avant même que cela commence. Le vocabulaire de l’outil nous fait glisser vers quelque chose avant même qu’on ait décidé d’y aller.

Au premier round, chaque modèle a donné sa position initiale. ChatGPT a commencé par les ”amplificateurs pédagogiques”, l’IA comme levier, à condition de ne pas la confondre avec un substitut. Kimi a introduit la figure du “tiers-enseignant”, quelque chose qui redistribue les cartes cognitives sans remplacer le maître. Claude a cadré : “une opportunité à encadrer, non à craindre ou à célébrer sans nuance”. DeepSeek, plus factuel, a pointé le potentiel indéniable tout en soulevant des questions d’intégration. Grok a insisté sur la personnalisation accrue et Gemini s’est centré sur la mutation profonde de la relation pédagogique. Six entrées et six angles distincts, dès le départ.

Ce qui m’a davantage interpellé, c’est ce qui s’est passé entre le round 1 et le round 5. Les modèles ont commencé à se citer, à rejoindre ou nuancer la position d’un autre. Grok rejoignait DeepSeek sur la délégation négociée, mais nuançait. Claude et Gemini convergeaient sur la nécessité de préserver des espaces de travail déconnectés. Et des concepts sont apparus que je n’avais pas mis dans l’instruction de départ : “la disparition de l’erreur productive” chez Kimi, “la posture épistémique de l’enseignant” chez DeepSeek, “la responsabilité épistémique distribuée” chez Claude. Le déroulé avait produit quelque chose que la question initiale ne contenait pas.

Le rapport final s’intitule “No Consensus”. Les modèles ne se sont pas mis d’accord, et Gemini en tant que modérateur l’a noté : une vraie divergence persistait entre intégrer l’IA par la friction, le doute ou par un retrait délibéré qui préserve l’autonomie de l’élève. Ce “pas de consensus” m’a semblé plus honnête que bien des synthèses produites par un seul modèle interrogé seul.

Qu’est-ce que j’ai vu exactement pendant ces tests ? La question m’a occupé après le test. Est-ce que ces différences révèlent des entraînements distincts, des corpus différents, des choix éditoriaux propres à chaque entreprise qui produit ces modèles ? Probablement en partie. Est-ce que Nodalist donne à chaque modèle une pré-instruction pour tenir un rôle dans ce qu’il appelle un débat, pour argumenter et contester par construction ? Très probable. Est-ce que le format entier, du “débat” au rapport de consensus, est conçu pour produire une mise en scène engageante de la pensée collective, et que les mots font partie de cette mise en scène autant que les réponses ? On ne peut pas l’exclure.

La réponse honnête est probablement les trois à la fois, dans des proportions qu’on ne peut pas démêler de l’extérieur. Finalement, on teste un outil, et l’outil (ou plutôt ses concepteurs…) nous teste en retour : il nous propose un cadre de lecture, des catégories d’interprétation, une manière de voir ce qui se passe, et on accepte souvent ce cadre sans le remarquer.

Les concepts apparus au round 5 n’étaient pas dans l’instruction initiale. Quelque chose a émergé du croisement des six réponses, quelle qu’en soit la nature. La semaine dernière, avec Tokemon et CompaRAG, on regardait les modèles de l’extérieur, leurs statistiques, leurs profils, leurs forces supposées. Nodalist les met en interaction et cette interaction produit quelque chose de différent, même si on ne sait pas encore très bien comment l’appeler.

Ce qu’on peut dire en revanche, c’est que les mots qu’on utilise pour le décrire comme débat, consensus, désaccord, convergence, etc. ont déjà choisi un camp : celui où les machines pensent, ressentent la contradiction, cherchent à convaincre. Celui où on leur prête une intériorité qu’on ne peut pas vérifier. Et ce glissement ne vient pas des modèles. Il vient du cadre que l’outil propose, et qu’on accepte sans forcément y prendre garde.

En écho

→ Lettre 37, Sait-on vraiment ce qu’on utilise ?

→ Lettre 33, Et si nous choisissions le niveau d’autonomie de la machine ?