Moondream
Moondream (https://moondream.ai/c/playground et documentation : https://huggingface.co/vikhyatk/moondream2) lit et détecte les éléments d’une image (Visual Language Model).
Dans l’espace « playground » quatre modes sont proposés :
- Query pour questionner le modèle,
- Caption pour une description de l’image en trois formats,
- Point pour demander au modèle de pointer un élément,
- Detect pour que le modèle repère un ou plusieurs éléments.
En anglais avec français accepté dans les requêtes. Pour « Point » et « Detect », meilleurs résultats avec demande en anglais.
Illimité et open source.
Images pour les tests :
- A man wearing face mask cycling by Wat Phra Kaew outside the wall of the Grand Palace, Bangkok.
- Örebro slott May
- Giuseppe Arcimboldo – Summer












(à noter : difficultés pour le repérage des parties du visage)