Les vidéos produites sont d’une qualité époustouflante, et pourtant elles ont été créées à partir d’instructions textuelles. Sora, le nouveau modèle d’IA générative d’OpenAI, est capable de créer des scènes d’une minute avec une résolution de 1080p. Il peut même extraire des scènes d’autres vidéos ou les compléter.
OpenAI a dévoilé Sora, un modèle d’IA générative capable de créer des séquences vidéo réalistes à partir d’instructions textuelles, le 15 février. S’il ne s’agit pas du premier modèle de ce type, la qualité des démonstrations publiées par la start-up représente un bond en avant indéniable par rapport à l’existant.
Pour le moment, l’outil peut générer des vidéos d’une durée maximale d’une minute tout en maintenant la qualité visuelle et le respect des instructions de l’utilisateur, d’après OpenAI. Il n’est disponible qu’auprès d’un nombre limité d’utilisateurs.
Des morceaux d’images au lieu de morceaux de mots
La firme précise qu’elle a entraîné conjointement des modèles de diffusion conditionnelle de texte sur des vidéos et des images de durées, résolutions et formats d’image variables. Elle exploite par ailleurs une architecture de Transformers « qui fonctionne sur des morceaux spatio-temporels de codes latents de vidéo et d’image ». Sora semble donc être un modèle de diffusion qui s’appuie sur le principe des Transformers.