Focus lettre

Quand l’IA prend la parole

Focus de la lettre 24

Sesame et Kugel Audio m’ont donné envie de vous parler cette semaine de la génération de voix.

Je teste assez régulièrement des applications dédiées (85 sont présentes dans la catégorie “voix” du site), ce fut le cas récemment la semaine dernière avec Voxtral ou Scribe il y a trois semaines.

Plus que les progrès technologiques énormes réalisés ces derniers mois (un peu comme les visages déformés pour les images, les voix robotiques métalliques sont bien loin), c’est plutôt sur ces avancées à bas bruit que je voudrais m’arrêter aujourd’hui.

Peut-être parce que ces modèles et ces applications sont moins visibles et moins médiatisées, il me semble que l’on a moins suivi leur évolution alors que selon moi elles ont certainement plus de conséquences dans nos vies. On en a déjà parlé ici : des conséquences directes sur les métiers dédiés à la voix comme pour le doublage bien sûr mais aussi des impacts sur les voix que nous entendons au quotidien. D’un côté, des aspects positifs : synthèse vocale accessible à tous, nombreux modèles open source, applications gratuites pour l’accessibilité, ou encore possibilité d’écouter des textes quand on ne peut pas les lire. De l’autre, des aspects plus négatifs, comme la multiplication exponentielle des contenus audio ou les dérives du clonage de voix, désormais possible avec seulement quelques secondes d’enregistrement.

Kyutai avec son modèle Unmute avait déjà introduit l’analyse et la génération en double “flux” (une simplification peut-être excessive…), repris ici par Sesame : contrairement à un outil conversationnel classique qui reçoit un audio, le traite puis génère sa réponse sans pouvoir réaliser d’autre tâche, le flux entrant et le flux sortant sont ici traités simultanément. Cela permet à l’IA de produire de l’audio et d’analyser l’audio reçu en même temps, comme dans une conversation humaine.
Notre rapport à la machine me semble atteindre un nouveau niveau, celui de la perception et de l’émotion. La médiation de l’écriture et sa nécessaire réflexion préalable n’existe plus et le flux direct et constant installe une nouvelle relation presque plus “intime” qui pourrait faire oublier la machine…

L’automatisation d’appels téléphoniques par exemple est désormais possible et de plus en plus vraisemblable. Peut-être avez-vous, comme moi, reçu récemment un appel de démarchage téléphonique troublant, généré par IA…
Les Deepfakes audio sont plus difficiles à repérer, les indices sont gommés peu à peu, il reste encore des silences parfois absents, trop courts ou trop longs, des intonations mal placées ou parfois de courts bruits de fond. Que faire alors ? Exercer sa pensée critique et l’appliquer semble de plus en plus nécessaire…