Un jour, un outil d'IA générative

Lolaby (https://huggingface.co/spaces/build-small-hackathon/lolaby et documentation : https://huggingface.co/build-small-hackathon/lolaby-llama-3b) génère des berceuses personnalisées à partir d’une image (dessin ou photo), du prénom, de l’âge et des centres d’intérêt d’un enfant.

L’interface propose deux étapes. La première propose de dessiner directement à l’écran ou d’importer une photo. La seconde collecte le prénom, l’âge, ce que l’enfant aime, quelque chose qui lui fait peur, une ambiance et un ou plusieurs instruments parmi six (boîte à musique, guitare, clavier, ocarina, harpe, xylophone). Les réglages avancés permettent de choisir la tonalité et le tempo.

Modèles utilisés : un modèle de vision (MiniCPM-V 4.6, 1,3 milliard de paramètres) analyse le visuel et extrait une description et un modèle Llama 3.2 3B génère les paroles en intégrant l’ensemble de ces éléments. Musique synthétisée par traitement du signal. Lecture assurée par Kokoro TTS 82M.

Génération locale sans appel à un service cloud.

Note : les paroles sont générées en anglais par défaut mais une instruction qui demande le français dans le champ « What do they love? » produit des paroles en français, mais la voix de synthèse (Kokoro TTS) reste à l’accent anglais. L’option « Just the words » permet de ne pas générer la musique et l’audio.

Open source, gratuit et sans compte.