¿Qué es «Sora»? la impactante IA que transforma texto en video

by websys 19 de febrero de 2024

La empresa OpenAI, uno de los líderes en inteligencia artificial generativa, presentó su modelo ‘Sora’ que acepta instrucciones en texto y las convierte en escenas de video, realistas, con múltiples caracteres y movimientos específicos.

¿Qué es Sora y qué puede hacer?

Según la firma, establecida en 2015 y dirigida por Sam Altman, que ha desarrollado ChatGPT y el generador de imágenes fijas DALL-E, ‘Sora’ es capaz de crear «escenas complejas con detalles del componente principal y el trasfondo».

La compañía también indicó que el modelo Sora puede «entender cómo existen los objetos en el mundo físico» y tiene la capacidad de «interpretar acertadamente las instrucciones y de generar caracteres convincentes que expresan emociones vibrantes».

¿Qué significa Sora?

‘Sora’ es el término en japones para «cielo» y la compañía todavía no la ha puesto a disposición del público porque sigue analizándola para comprender los peligros del sistema, según indicó el diario The New York Times.

En cambio OpenAI ha compartido la tecnología con un pequeño grupo de académicos y otros investigadores externos cuya tarea es detectar las maneras en las cuales ‘Sora’ podría usarse con fines maliciosos.

Las increíbles pruebas con Sora de OpenAI

Steven Levy, de la revista Wired, describió su experiencia cuando OpenAi le permitió ver, aunque no operar, el modelo ‘Sora’ en respuesta a la instrucción en texto para crear una escena de la ciudad de Tokio captada por una cámara que se mueve por las calles, sigue a algunas personas en un día con nieve.

«El resultado es una vista convincente de lo que es, sin duda, Tokio en ese momento, cuando coexisten los copos de nieve y los capullos de cerezos» escribió Levy. «La cámara virtual, colocada en un robot volador (dron), sigue a una pareja que camina por el paisaje».

Sora, mujer caminando en tokyo.

La firma indica que ‘Sora’ permite la creación de muchos mundos, con escenas realistas o fantásticas, tridimensionales, con movimientos fluidos, y aún en las escenas que no existen en el mundo real, el modelo aplica las reglas físicas correctas.

De este modo, OpenAI, que revolucionó el emergente sector de los servicios de IA regenerativa, dispondrá de un conjunto de servicios que van desde la generación de texto, imagen estática y video.

¿Cómo funciona ‘Sora’?

De acuerdo a lo que explica OpenAI, y de lo que se conoce hasta el momento, el modelo ‘Sora’ fue entrenado para producir imágenes de video a partir de simples instrucciones de texto, manteniendo la tónica y lógica de cómo funciona ChatGPT, IA a la que solo le entregas instrucciones para obtener una respuesta.

Hasta el momento, Sora puede generar videos de hasta un minuto, manteniendo calidad visual y, al mismo tiempo, un resultado lo más apegado posible a los requerimientos del usuario.

De esta forma describe OpenAI a su modelo Sora: «Es un modelo de difusión que genera un video comenzando con uno que pareciera ruido estático y, gradualmente, lo transforma removiendo el ruido a través de muchos pasos».

Por ahora, se usa solo a modo de prueba entre diseñadores, artistas visuales, cineastas y otros. Por ahora, no se sabe cuándo podría estar disponible para todos los usuarios de OpenAi.

Vehículo generado por Sora.

Un video real de cómo funciona Sora

¿Te preguntas cómo se ve un video generado por Sora? acá te dejamos un ejemplo que fue presentado al mundo… ¿podrías diferenciar la realidad de este resultado de la inteligencia generativa?

Ir a la fuente.

¿Qué es «Sora»? la impactante IA que transforma texto en video

¿Qué es «Sora»? la impactante IA que transforma texto en video

¿Qué es Sora y qué puede hacer?

¿Qué significa Sora?

Las increíbles pruebas con Sora de OpenAI

¿Cómo funciona ‘Sora’?

Un video real de cómo funciona Sora

Compartir: