10/12/2024 @ 17:42:57: Programmation - OpenAI lance Sora, l'IA pour générer des vidéos incroyables : voici ce qui fonctionne bien et ce qui ne fonctionne pas
Le troisième jour de ses 12 Days of OpenAI , un événement de 12 jours au cours duquel de nouveaux produits sont présentés quotidiennement, OpenAI a lancé Sora, son modèle de création de vidéos à partir de texte. Parallèlement à Sora , OpenAI a également introduit Sora Turbo, un modèle mis à jour qui ajoute des fonctionnalités telles que la génération de vidéos à partir de texte, l'animation d'images et le remixage de vidéos (nous le verrons en action plus tard). L'outil est disponible aujourd'hui sur Sora.com pour les abonnés ChatGPT aux États-Unis et dans « la plupart des autres pays », mais pas en Europe et au Royaume-Uni (Sam Altman a déclaré que vous devrez « attendre un peu » pour le voir de notre part). Pour l'utiliser, vous avez besoin d'un abonnement à ChatGPT Plus ou ChatGPT Pro . Avec le premier, qui coûte 20 $ par mois, vous pouvez générer jusqu'à 50 vidéos prioritaires (1 000 crédits) à des résolutions allant jusqu'à 720p et des durées de 5 secondes. Le second coûte 200 dollars par mois et permet des « générations illimitées » et jusqu'à 500 vidéos prioritaires tandis que la résolution atteint 1080p et la durée est de 20 secondes. Le forfait le plus cher permet également aux abonnés de télécharger des vidéos sans filigrane et d'exécuter jusqu'à cinq générations à la fois. Ceux qui n’ont pas d’abonnement peuvent toujours visionner les vidéos générées par les utilisateurs. Hier soir, immédiatement après le lancement, les serveurs d'OpenAI n'ont pas pu maintenir le rythme des connexions et l'entreprise a dû arrêter de créer de nouveaux comptes. Il n'y a aucune indication sur le nombre d'abonnés , mais pour le moment en essayant avec un VPN il n'est pas encore possible de créer un compte.
Sécurité
OpenAI a déclaré que les vidéos générées avec Sora seront reconnaissables comme étant créées par l'IA de deux manières. Le plus visible est la présence de filigranes visibles (bien que les abonnés ChatGPT Pro ne devraient pas en avoir, ce n'est donc pas clair). L'autre voie est la présence de métadonnées C2PA , une norme éthique qui permet de retracer l'origine du contenu audiovisuel et qui voit la participation d' Amazon, Microsoft, OpenAI, Google et d'autres géants du secteur. Avant de télécharger une image ou une vidéo sur Sora, OpenAI vous demande d'approuver un accord stipulant que ce que vous téléchargez ne contient pas de personnes de moins de 18 ans, de contenu explicite ou violent et de matériel protégé par le droit d'auteur . « L'abus de téléchargements de médias » peut entraîner l'interdiction ou la suspension du compte. OpenAI déclare que les vidéos générées à partir d'images ou d'autres contenus ou contenant de vraies personnes ne peuvent pas être téléchargées sur le flux.
Cependant, une certaine controverse existe déjà. La première est qu’à l’heure actuelle, seuls certains utilisateurs peuvent créer des vidéos de personnes réelles à partir d’une photo ou d’une vidéo. La semaine dernière également, un groupe d'artistes, prétendant faire partie du programme de tests alpha de la société, a divulgué Sora pour protester contre le fait qu'OpenAI utiliserait leurs créations pour entraîner le modèle, sans les payer. Et ce n'est que le début : comme nous le verrons, Sora change votre perception de ce qui est réel et de ce qui ne l'est pas. Mais voyons comment cela fonctionne.
Comment fonctionne Sora
Pour voir comment fonctionne Sora , nous nous sommes appuyés sur Marques Brownlee, connu sous le nom de MKBHD, qui a publié une véritable critique du produit sur YouTube (au bas de cette page vous pouvez voir la vidéo complète). L'interface de Sora est très simple, avec un panneau latéral qui vous permet d'explorer les différentes sections et en bas un champ où vous pouvez saisir l'invite de texte (ou télécharger des images et gérer les options). La section Explorer contient trois onglets qui vous permettent de voir les vidéos créées par les utilisateurs : Récentes, En vedette (les meilleures vidéos sélectionnées par OpenAI) et Enregistrées, celles que nous souhaitons enregistrer (une sorte de favoris du navigateur). Si vous cliquez sur une vidéo, il y a une section en bas appelée Storyboard qui vous permet de voir l'invite utilisée par l'utilisateur pour la créer. Ensuite, il y a votre bibliothèque, avec les projets et contenus chargés.
En ouvrant une vidéo, comme nous l'avons dit, vous pouvez voir le Storyboard , c'est-à-dire les invites utilisées pour la créer. Non seulement cela, mais vous pouvez également l'éditer avec le bouton Remix, qui vous permet d'ajouter, par exemple, un terrain de golf derrière la vidéo d'une maison. Vous pouvez saisir l'invite et choisir l'intensité du remix, ainsi que la qualité de la vidéo (plus elle est élevée, plus cela prend de temps). La qualité minimale est de 480p, pour laquelle il faut attendre une trentaine de secondes, tandis que pour une vidéo 1080p cela prend quelques minutes. Le Storyboard est une fonction très intéressante, car elle permet de créer une vidéo avec différentes invites, comme s'il s'agissait d'un véritable scénario. Le problème est que vous ne pouvez pas faire en sorte que la vidéo fasse plusieurs choses à la fois, mais vous pouvez utiliser l'IA pour mélanger plusieurs vidéos, et elle le fait très bien.
Ce qui fonctionne bien et ce qui ne fonctionne pas
Brownlee a ensuite montré dans quoi Sora fonctionne bien et ce qui ne fonctionne pas. En ce qui concerne les choses, cela fonctionne généralement mieux avec un contenu de style dessin animé. Le problème le plus évident concerne la physique des objets, notamment avec les vidéos réalistes : ils disparaissent, ou encore les pattes des animaux se comportent étrangement. Les mouvements ne sont pas non plus convaincants : lents ou rapides, il y a toujours quelque chose qui ne marche pas bien. Le YouTubeur a ensuite analysé la question de la mise en ligne de contenus tels que des images ou des vidéos, par exemple des mèmes ou en tout cas de personnes réelles. Comme nous l'avions prévu, il y a de nombreuses limites à cela et si vous essayez de télécharger des images de personnes connues, elles seront automatiquement rejetées (mais pas seulement, même les logos ou personnages connus, comme le robot Android).
En revanche, Sora semble très bien fonctionner avec du contenu abstrait et textuel, ainsi qu'avec des vidéos de style caméra de sécurité CCTV. Comme nous l'avons dit, avec animation. Brownlee a ensuite démontré l'efficacité de l'outil utilisé pour créer une vidéo d'un critique montrant un téléphone. En cela, cela fonctionne très bien.
Mais il y a un problème. Dans la vidéo du critique, Sora a ajouté un contenu curieux sans qu'on le lui demande dans l'invite : une plante sur la table . Le fait est que c'est la même plante que Brownlee utilise dans ses vidéos, ce qui soulève donc la question : Sora a-t-il été entraîné avec les vidéos du YouTuber sans autorisation ? La question est ouverte et, à partir d’aujourd’hui, elle deviendra de plus en plus pressante.