Recherche à l’EPFL

Des chercheurs suisses repoussent la limite de durée des vidéos générées par IA

Des chercheurs de l’EPFL ont mis au point une intelligence artificielle capable de générer des vidéos de longue durée sans perte de qualité, en s’attaquant à un défaut majeur des modèles actuels de génération vidéo.

(Source: metamorworks/stock.adobe.com)
(Source: metamorworks/stock.adobe.com)

Le laboratoire d’intelligence visuelle pour les transports (VITA Lab) de l’École polytechnique fédérale de Lausanne (EPFL) a développé une intelligence artificielle baptisée SVI (Stable Video Infinity), capable de générer des vidéos sur de très longues durées sans dégradation progressive de la qualité.

Cette avancée repose sur la résolution du phénomène de «drift», un défaut récurrent des modèles de génération vidéo, qui entraîne une accumulation d’erreurs d’une image à l’autre. Jusqu’à présent, les IA produisaient des séquences cohérentes sur quelques secondes seulement, avant de voir apparaître des contours flous, des couleurs instables ou une perte de logique visuelle.

Selon Alexandre Alahi, professeur au VITA Lab, les modèles actuels sont entraînés sur des données parfaites, mais doivent ensuite générer des vidéos en intégrant leurs propres imperfections, ce qui provoque l’effondrement progressif du réalisme.

Une méthode basée sur la correction des erreurs

Pour surmonter cette limite, les chercheurs ont mis au point une méthode de «réentraînement par recyclage des erreurs». Le modèle génère d’abord des vidéos, dont les écarts par rapport au résultat attendu sont mesurés et enregistrés. Ces erreurs sont ensuite volontairement réinjectées lors des phases d’entraînement suivantes, afin de confronter l’IA à des conditions proches de son usage réel.

Selon le billet de blog, ce procédé permet au modèle d’apprendre à corriger des images dégradées et à maintenir une continuité visuelle stable, sans nécessiter de volumes massifs de données ni de ressources de calcul élevées. Grâce à cette approche, SVI conserve une qualité quasi constante sur des vidéos de plusieurs minutes, voire davantage.

Disponible en open source, la technologie a été testée à partir de nombreuses séquences comparées à celles produites par d’autres modèles génératifs. Elle sera présentée lors de la conférence internationale ICLR 2026, dédiée à l’intelligence artificielle et à l’apprentissage profond, et suscite déjà l’intérêt de domaines tels que la création audiovisuelle, l’animation et le jeu vidéo.

Dans le prolongement de ces travaux, les chercheurs ont également développé une méthode baptisée LayerSync, qui exploite les représentations internes du modèle afin d’améliorer l’apprentissage. Cette approche permet d’améliorer la qualité de contenus multimodaux, incluant vidéos, images et sons, sans recourir à des données supplémentaires ni à des modèles externes.

L’actualité IT en Suisse et à l’international, avec un focus sur la Suisse romande, directement dans votre boîte mail > Inscrivez-vous à la newsletter d’ICTjournal, envoyée du lundi au vendredi! 

Webcode
DVqM6egM