Sait-on vraiment ce qu’on utilise ?
Tokemon présente 30 modèles de langage sous la forme ludique d’un Pokédex : chaque modèle est classé et rangé, avec ses statistiques, ses caractéristiques et sa chaîne d’évolution. Un peu comme un ComparIA, un Chatbot Arena ou un Design Arena gamifié.
Whisper Large v3, Llama 3.1 405B, Claude Opus 4, Mistral Large 2, DeepSeek R1…
Ici trente profils et leur fiche, quarante dans ComparIA ou encore plus de 100 dans Chatbot et Design Arena. Tous rendent visible quelque chose de presque imperceptible pour beaucoup d’utilisateurs au quotidien : OpenAI développe plusieurs modèles, Anthropic aussi, même chose avec Meta, Google et les autres. On n’utilise pas ChatGPT, Claude, Gemini ou Meta AI, on utilise ce que leurs éditeurs ont placé dans leurs tiroirs. On ouvre un meuble sans toujours savoir forcément ce qu’il y a à l’intérieur, et la plupart du temps, ce n’est même pas expliqué clairement.
Les interfaces grand public ont été conçues pour masquer cette complexité, et c’est souvent perçu comme un service rendu : on n’a pas forcément besoin de savoir si c’est GPT 5, 4o ou o3 qui a généré la réponse reçue, de la même façon qu’on n’a pas toujours besoin de savoir quel moteur est sous le capot quand on démarre une voiture. Mais avec la voiture, on choisit : citadine, SUV, voiture de sport, selon l’usage, le confort, la route ou ce qu’on transporte. Avec les outils IA, ce choix est souvent fait à notre place, sans qu’on nous le signale vraiment. Or les modèles à l’œuvre dans une application, eux, ont des forces et des faiblesses très différentes selon ce qu’on leur demande. Code, raisonnement, multilinguisme, longueur du contexte, vitesse : les fiches dans Tokemon ne sont pas là juste pour faire joli, elles pointent des différences réelles, et ces différences, les interfaces nous les cachent très souvent.
CompaRAG, lui, part d’un autre angle. Arthur Sarazin, qu’on a déjà croisé dans nos lettres et dont je vous encourage à suivre les publications, a repris les bases de Compar:IA et a étendu son principe à un deuxième niveau : non plus seulement comparer les LLMs entre eux, mais comparer des outils RAG, ces systèmes qui permettent à un modèle de s’appuyer sur des documents fournis pour améliorer la qualité de ses réponses.
Le RAG, pour “retrieval-augmented generation”, est une des briques les plus courantes dans les applications d’IA, et ecore plus peut-être dans celles utilisées en contexte professionnel : on lui soumet ses propres sources, ses propres données, et il est censé répondre principalement à partir d’elles plutôt que depuis son seul entraînement. Ce que CompaRAG compare, c’est donc la qualité de ce traitement : est-ce que l’outil a bien intégré et anamysé les documents ? A-t-il su en extraire ce qui était pertinent ? A-t-il répondu à la question posée ou produit-il une réponse s’en approchant ?
Les noms des outils proposés dans CompaRAG ne sont pas ceux qu’on a l’habitude de voir : LlamaIndex, LangChain, Chroma, Haystack. Des outils que la plupart des utilisateurs ne connaissent pas ou qu’on a juste peut-être déjà croisés mais qui sont pourtant souvent là, quelque part dans les tiroirs du meuble, quand on utilise un chatbot d’IA générative, un assistant IA d’entreprise, un outil de recherche documentaire ou une application qui a accès à vos fichiers. On croit utiliser un produit, on utilise en réalité une architecture.
Le principe de CompaRAG est le même que celui de Compar:IA : deux outils répondent à une même instruction sur le même document, anonymement. On vote pour le meilleur avant de savoir qui est qui. C’est un blind test et ce blind test, c’est une façon de tester nos propres biais autant que les outils. Dans la lettre 29, le Bullshit Benchmark montrait que la vraisemblance d’une réponse suffit souvent à la faire accepter. CompaRAG et Compar:IA posent la question symétrique : est-ce que la réputation d’un outil suffit à faire accepter sa réponse, même quand un autre outil ferait mieux ? Enlever le nom, c’est enlever le filet de sécurité cognitif, on se retrouve à juger sans la béquille de la réputation.
Le nom fait beaucoup et pas seulement dans l’évaluation de la qualité : aussi dans le choix de rester. Tout est conçu pour qu’on ne parte pas, l’historique des conversations, les intégrations à d’autres outils, les habitudes, les nouveautés distillées et vendues comme l’innovation ultime (qui sera dépassée dans le discours qui suivra quelques semaines ou mois plus tard), l’interface qu’on connaît de mieux en mieux voire par cœur, et par-dessus tout l’abonnement une fois qu’on s’est engagés. D’ailleurs, une fois qu’on paie, la question “est-ce que cet outil est vraiment le meilleur pour ce que je fais ?” devient presque inconfortable à poser. On l’esquive, on la reporte et on se dit qu’on comparera plus tard. Le coût de sortie n’est alors pas que financier : l’ancrage est aussi presque “émotionnel”, parfois difficile à distinguer d’une vraie préférence… et les équipes produit des grandes armoires l’ont très bien intégré.
C’est là que la comparaison devient selon moi un acte plus exigeant qu’il n’y paraît. Comparer demande d’accepter que ce qu’on utilise n’est peut-être pas ce qu’il y a de mieux pour ce qu’on fait. Même si Tokemon et CompaRAG ne proposent pas tout à fait la même chose, ils posent je pense la même question par des chemins différents : est-ce qu’on évalue vraiment les outils qu’on utilise, ou est-ce qu’on évalue surtout nos habitudes et l’idée qu’on s’en est faite ?