Informaticien - Stable Diffusion peut désormais créer des vidéos, mais pas pour tout le monde

À l'instar du passage de la photographie au cinéma , il est désormais clair que le prochain objectif des entreprises travaillant dans le domaine de l'intelligence artificielle générative est la création de contenu vidéo . Mais s'il a fallu plus de cinquante ans pour arriver aux premiers films (de 1826, naissance de la photographie, à 1878 avec le premier film), avec l'IA, on peut penser en mois, et la dernière entreprise à annoncer une solution de ce type est Stability AI , le créateur du populaire modèle d'imagerie à diffusion stable . Lancé il y a quelques jours, Stable Video Diffusion est un outil d'IA open source basé sur le modèle du même nom susmentionné, et a été publié sous la forme de deux modèles, SVD et SVD-XT . SVD transforme les images fixes en vidéo de 576 x 1 024 pixels à 14 images, tandis que SVD-XT , qui utilise la même architecture, augmente le nombre d'images à 24. Les deux peuvent générer une vidéo entre 3 et 30 images par seconde. Selon un article publié pour accompagner l'annonce, SVD et SVD-XT ont été initialement formés sur un ensemble de données de millions de vidéos , puis optimisés sur un ensemble beaucoup plus restreint de centaines de milliers à environ un million de clips. On ne sait pas exactement d'où proviennent ces vidéos (selon l'article provenant d'ensembles de données de recherche publique), mais Stability a déjà fait l'objet d'un certain nombre de poursuites liées à l'utilisation illicite d'images pour entraîner ses modèles, nous espérons donc qu'elle a pris les précautions nécessaires. Mais comment fonctionnent ces vidéos et à quoi ressemblent-elles ? La génération des vidéos nécessite simplement une invite de texte et, tout comme le premier film de l'histoire, la durée (comme toutes celles actuellement créées par l'IA) est actuellement courte, à quatre secondes , mais d'assez haute qualité . Ou du moins comparables à ceux de Meta, Google et AI Runway. Les limites sont dans le contenu : il doit y avoir un mouvement de la « caméra » ou en tout cas du cadre, ils ne peuvent pas montrer de texte lisible et les visages peuvent présenter des distorsions.

Mais si vous voulez savoir comment l’essayer, préparez-vous à la déception. En fait, Stability déclare que, comme cela s'est produit avec la première version de Stable Diffusion, Stable Video Diffusion est disponible uniquement à des fins de recherche . Cela signifie que vous ne pouvez accéder au modèle que via une liste d'attente accessible après avoir rempli un formulaire déclarant votre appartenance à un certain type d'institution et votre intention de créer du contenu pour « des outils pédagogiques ou créatifs », « du design et d'autres processus artistiques » et similaire. Mais surtout ne pas créer intentionnellement « des représentations factuelles ou vraies de personnes ou d’événements ». La technologie est certainement passionnante et Stability AI a l'intention de la déployer pour des cas d'utilisation tels que la génération de vues d'objets à 360 degrés , ainsi que le développement d'autres modèles et d'un outil de conversion texte-vidéo qui affiche des suggestions de texte aux modèles sur le Web. L’objectif ultime semble être la commercialisation, et Stability, qui brûle des millions de dollars, envisage d’appliquer cet outil à la publicité, au divertissement, à l’éducation et bien plus encore. Mais il y a aussi des inquiétudes. Mis à part les problèmes de droits d'auteur , l'histoire nous dit que ces modèles apparaîtront bientôt également sur le dark web , et il n'est pas difficile d'imaginer que l'outil pourrait être utilisé pour créer des deepfakes, étant donné qu'il ne semble pas y avoir de filtres de contenu intégrés . . Le futur proche nous apportera une réponse, donc pour le moment nous nous limiterons à vous montrer la vidéo de présentation.

Auteur: Nic007