Molmo 2, le petit modèle de vision qui voit (presque) tout
Focus de la lettre 16
L’un d’entre vous aurait pu dire que cette semaine il n’y a que des numéros 10 dans la team, et j’aurais été pleinement d’accord avec lui ! : )
Encore un choix compliqué pour ce focus… mais puisqu’il faut en faire un, cela sera Molmo 2 même si j’aurais pu choisir chacune des publications avec Incredible et Everyday qui rendent accessibles les automatisations parfois complexes dans des applications dédiées, l’isolation des sons de SAM audio, la banque de pages web avec laquelle on peut converser de Browsewiki ou encore le duo-biiiiip like de Google traduction avec sa génération de situations… Vraiment toutes donc mais une seule au final.
Alors pourquoi Molmo 2 ?
Tout d’abord parce que même si seulement deux tests sont publiés dans l’article, j’y ai passé beaucoup de temps entre une certaine fascination devant les performances du modèle et le jeu à tenter de le “piéger”… ce que je n’ai quasiment pas réussi à faire, hors un décompte à deux près d’un flux de voiture que j’ai dû recompter de mon côté plusieurs fois ;).
Ensuite pour l’évolution que ce modèle me semble apporter : j’ai déjà publié plusieurs applications qui analysent des images, des vidéos ou un flux issu d’une capture d’écran en temps réel, Molmo 2 apporte selon moi une précision supplémentaire notamment dans l’identification, le dénombrement et le suivi des objets.
Enfin Molmo 2 est mis à disposition en open source et il est léger, on peut donc imaginer qu’il va être inclus dans de futures applications et qu’on pourra le retrouver combiné à d’autres fonctionnalités. Peut-être même que l’ambition de créer des modèles de “perception” du monde, avancée par certaines équipes de chercheurs, n’est finalement pas si lointaine ?