Mercury 2 : quand les textes émergent comme des images
Depuis trois ans, et on l’a déjà abordé plusieurs fois dans nos focus, on a l’habitude de voir progresser les modèles d’images ou de langage avec toujours plus de paramètres, plus de données, plus de fonctionnalités… Une évolution, souvent liée à une course commerciale pour les modèles propriétaires, dont on suit les étapes comme on suit un peu une course sportive. Je pense que cette semaine Mercury 2 ne concourt pas tout à fait dans cette même compétition.
Là où les modèles génèrent du texte jeton (token) par jeton, un mot après l’autre et chaque choix conditionnant le suivant, Mercury utilise une nouvelle approche par diffusion : le texte émerge globalement à partir de l’instruction donnée, par “améliorations” successives plutôt que par accumulation pas à pas (une capture vidéo est disponible sur le site).
Les chercheurs et les ingénieurs d’”Inception” l’entreprise qui développe Mercury (on peut d’ailleurs s’interroger sur le choix de ce nom : le début, l’incipio, et/ou une référence au film de Nolan ?), sont parvenus à appliquer à la génération de texte le même principe que la génération d’images.
Pour comprendre plus finement ce que Mercury change, l’article du Financial Times repéré par Hervé Allesant (présent dans les lectures partagées) qui explique le fonctionnement d’un modèle classique suivi de la description de Mercury sur le site d’Inception me semblent une bonne entrée.
Après mes premiers tests cette semaine, qui certes ont révélé une vitesse et un ancrage à l’instruction qui m’ont semblé plus importants, c’est plutôt ce que cette approche dit en creux sur les limites des modèles de langage actuels qui me semble intéressant. Si générer jeton par jeton crée mécaniquement des biais et des dérives, alors peut-être que beaucoup de ce qu’on attribue aux performances ou aux “erreurs” des modèles actuels n’est que la conséquence d’un choix technique, et finalement peut-être pas une fatalité. La vitesse déportée sur le modèle et plus sur le matériel ouvre en tout cas des perspectives nouvelles, tant pour les applications sur des matériels moins puissants que pour la consommation énergétique…
Ça ne fait peut-être pas des modèles par diffusion comme Mercury 2 les modèles de demain, cela nous rappelle que l’on est encore au début, que les fondations ne sont pas figées, et que la prochaine étape intéressante ne découlera peut-être pas forcément des précédentes. Arthur Sarazin le dit à sa façon dans les lectures de cette semaine avec l’analogie du cycliste et de son vélo : comprendre comment la machine fonctionne restera certainement la meilleure et la seule façon de décider si et comment l’utiliser…