Moondream (https://moondream.ai/c/playground et documentation : https://huggingface.co/vikhyatk/moondream2) lit et détecte les éléments d’une image (Visual Language Model).

Dans l’espace « playground » quatre modes sont proposés :

  • Query pour questionner le modèle,
  • Caption pour une description de l’image en trois formats,
  • Point pour demander au modèle de pointer un élément,
  • Detect pour que le modèle repère un ou plusieurs éléments.

En anglais avec français accepté dans les requêtes. Pour « Point » et « Detect », meilleurs résultats avec demande en anglais.

Illimité et open source.

Images pour les tests :

(à noter : difficultés pour le repérage des parties du visage)