Génération de vidéo : une géographie qui se dessine ?
Happyhorse est le dernier modèle de génération vidéo d’Alibaba. On entre une instruction, on ajoute une image de référence, la vidéo arrive, sonorisée, fidèle à la requête de départ. Cinq formats, jusqu’à quinze secondes, édition possible par instruction ensuite, c’est efficace.
Il y a six semaines, la fermeture de Sora par OpenAI faisait l’objet d’une lecture partagée dans la lettre 30. L’annonce avait été sobre, presque brutale : un “nous disons au revoir à l’application Sora”, posté sur X sans explication détaillée. Six mois après un lancement en grande pompe, avec teaser, liste d’attente et premiers visuels spectaculaires, la plateforme fermait ses portes. Pas parce que la technologie était mauvaise, mais parce que le modèle économique ne tenait pas.
Pour comprendre pourquoi, il faut s’arrêter sur ce que coûte réellement la génération vidéo. Une vidéo de quelques secondes mobilise considérablement plus de ressources de calcul (et d’énergie…) par rapport au texte ou à l’image, à minimum 25 images seconde, c’est donc a minima 25 fois plus de calcul que la génération d’une image fixe : chaque image doit être générée, cohérente avec la précédente.
Les pertes liées à Sora auraient atteint 15 millions de dollars par jour pour OpenAI. Chiffre bien sûr à prendre avec précaution, sans confirmation officielle d’OpenAI, mais l’ordre de grandeur avancé est énorme. Intégrer Sora sans limite de consommation dans un abonnement mensuel revenait à offrir un service dont le coût réel n’était pas couvert par le prix payé. OpenAI a tranché : retrait de Sora et recentrage sur les outils de code et de productivité à destination des entreprises, là où la valeur perçue justifie les tarifs demandés et certainement aussi à l’endroit où ses concurrents directs avancent. Avec au passage une déferlante de contenus vidéos générés en quelques mois sur les réseaux sociaux et les médias…
Pendant ce temps, Alibaba sort Happyhorse. ByteDance a Seedance. Kuaishou possède Kling. Ces éditeurs chinois ne se posent apparemment pas les mêmes questions de rentabilité à court terme, ou en tout cas pas de la même façon. Ces entreprises continuent d’investir sur un segment que d’autres choisissent de quitter, non par faiblesse technologique, les modèles sont comparables et parfois supérieurs, mais par orientation de marché.
On pourrait y voir des entreprises moins soumises à la pression des investisseurs à court terme et des logiques de croissance qui n’ont pas à démontrer leur rentabilité immédiate. Mais c’est peut-être aussi plus simple que ça : ces plateformes ont peut-être compris que la valeur n’est pas dans la démonstration technologique mais dans l’installation de l’habitude, peut-être pour faire en sorte que la vidéo générée devienne un réflexe. On retrouverait presque encore ici le passage du “waouh” au “ah ouais” dont on parlait dans la la lettre 28…
C’est là que la divergence devient intéressante, au-delà des entreprises elles-mêmes. Si la vidéo générative grand public continue de se développer côté plateformes chinoises pendant qu’OpenAI et d’autres s’en retirent, ce ne sera pas sans effet sur qui définit les usages, les formats, les attentes. Kling et Seedance ont déjà des millions d’utilisateurs. Ce sont ces plateformes qui apprennent aux créateurs ce qu’on peut faire et ce qui fonctionne. Ce sont elles qui installent les réflexes. Ce sont elles aussi qui récoltent les données d’usage qui permettent d’améliorer les modèles, et cet avantage-là sera difficile à rattraper.
La question n’est pas de savoir si c’est inquiétant ou non. Elle est je crois plus précise : est-ce qu’OpenAI reviendra sur ce terrain une fois que les coûts de calcul auront suffisamment baissé ? Est-ce que des acteurs occidentaux combleront l’écart, Google avec Veo, Runway, Adobe avec Firefly ? Ou est-ce qu’on est en train de voir se dessiner une géographie économique de qui produit quoi et pour qui, avec des créateurs qui adopteront les outils disponibles, quelle qu’en soit l’origine ?
La vidéo générée était présentée comme la prochaine grande rupture dans la création, elle a surtout pour le moment produit des contenus de masse. Elle le sera peut-être mais les ruptures révèlent aussi qui a les moyens de rester sur le terrain et qui choisit d’en partir et avec quels objectifs.