Du texte au monde
La semaine dernière, je vous présentais Écho, le jeu que j’ai créé qui met en scène un glissement, celui de l’utilisateur humain qui délègue peu à peu à la machine, voulu dans une mécanique simple pour rendre visible l’agentivité.
Dans le zoom que j’avais ensuite proposé dans les publications de cette lettre 30, Make it posait une question voisine depuis l’autre sens : une application d’IA générative qui génère le plan complet d’un objet physique à fabriquer soi-même, avec liste de matériel, programmation, tutoriel pas à pas et même photos générées de l’objet fini. Je n’ai pas fabriqué ni testé physiquement les deux projets présentés dans l’article, mais c’était l’une des premières fois où un monde tangible m’était présenté avec un rendu physique convaincant et documenté. La représentation était donc là, l’objet peut-être, sa construction restant à tester.
Cette semaine, Omma prolonge le fil depuis une direction différente. En une instruction en langage naturel, l’application a généré un système Terre-Lune-Soleil avec des orbites animées et paramétrables, un jeu type Flappy Bird jouable dès la première génération. Et pour la première fois, un monde ouvert navigable m’a été roposé à partir d’une instruction (certes au départ avec un vélo aux roues perpendiculaires mais corrigées dans les itérations suivantes) : des arbres, des immeubles, des routes et des chemins, une physique cohérente et un personnage qui pédale en butant sur les objets… et tout ça réalisé dans un navigateur avec du code accessible.
J’ai décrit « un morceau » de monde et il est apparu : ce qui m’a frappé ce n’est pas la performance technique en elle-même, c’est que la simulation soit devenue suffisamment plausible pour qu’on s’y promène et pour qu’on s’y retrouve.
Il y a trois ans, au lancement d’uneIAparjour, les modèles produisaient du texte avec des réponses en chaîne de caractères, sans ancrage dans une réalité physique, on en avait retracé l’évolution dans la lettre 25, depuis les catégories du site sur trois années. Texte d’abord, puis images, puis voix, puis vidéo, puis environnements 3D interactifs. Chaque étape a semblé vertigineuse (l’effet “waouh” de la lettre 28), s’est ensuite normalisée, puis a été dépassée. Omma et Make it ne sont pas des exceptions dans cette trajectoire, ces applications en sont, je crois, des expressions concrètes et accessibles aujourd’hui, à la portée de n’importe qui avec un navigateur et une idée.
Ce que j’ai observé à petite échelle dans un navigateur, Yann LeCun le vise à l’échelle des systèmes physiques réels. Il y a trois semaines, il annonçait AMI Labs (voir cet article d’Euronews) et levait un milliard de dollars sur une conviction qu’il porte depuis plusieurs années : les modèles de langage fondés sur du texte ont ou vont atteindre leur limite. Ce qu’il vise avec les “world models”, ce sont des systèmes capables de comprendre le monde physique depuis des données issues de vidéos ou de capteurs, comprendre le monde comme le font les animaux et les humains, pas le simuler dans un navigateur, le comprendre vraiment, pour pouvoir agir dedans. Un peu comme le jalon suivant d’une trajectoire déjà engagée…
Comme trois niveaux d’une même progression, à des échelles très différentes. Pas une hiérarchie, une trajectoire qui continue et dont on observe ici deux jalons déjà accessibles et un troisième qui se finance à un milliard.
On est donc passé du texte à une représentation du monde de plus en plus plausible en trois ans. L’arroseur que j’ai conçu dans Make it devra fonctionner sous la pluie avec de vrais fils, le vélo d’Omma ne roule (pour l’instant ?) que dans un navigateur. Et si la distance entre les deux mondes se réduisait plus vite qu’on ne le pense ?