Saltar al contenido
Tecnología

El modelo Omni de Gemini promete IA capaz de crear “lo que sea” a partir de cualquier tipo de consignas

El gigante tecnológico promueve a Omni como el Nano Banana del video
Por Bruce Gil Traducido por

Tiempo de lectura 2 minutos

Comentarios (0)

Google acaba de anunciar su nuevo modelo de IA, Gemini Omni, que afirma que “podrá crear lo que sea a partir de cualquier consigna”, en su conferencia anual de desarrollo I/O del martes.

La compañía dijo que el modelo comenzará ofreciendo solo generación y edición de video, y en su sitio web Google afirma que será como “Nano Banana, pero para video” en referencia al modelo de imágenes que la compañía lanzó el año pasado.

Gemini Omni Flash, primer modelo de la familia Omni, puede editar videos existentes y generar nuevos, utilizando consignas en lenguaje común. Ya está disponible para probarlo en la app Gemini, Google Flow AI studio y YouTube Shorts.

“Con Omni puedes combinar imágenes, audio, video y texto como consigna y generar videos de alta calidad basados en el conocimiento de Gemini del mundo real. También puedes editar tus videos por medio de la conversación”, escribió en un posteo de blog Koray Kavukcuoglu, ejecutivo de tecnología de Google DeepMind.

Al igual que con Nano Banana, los usuarios podrán editar sobre ediciones con conversación natural. El modelo está diseñado para que los personajes y entornos se mantengan consistentes en cada edición y usará su conocimiento del mundo real incluyendo la historia, la biología, la física y la lógica narrativa para hacer clips que tengan sentido.

La compañía posteó ejemplos de lo que puede hacer el modelo en su sitio web.

En uno de los ejemplos, Google comienza con un video de un hombre que toca un espejo. El modelo luego crea varias versiones del clip basándose en consignas de texto como “hacer que el espejo tenga ondas como si fuera líquido” y “todo el entorno se convierte en arte voxel 3D” al tocar el espejo.

En otro ejemplo se ve la capacidad de audio del modelo, cuando el video sincroniza las luces de las ventanas de un edificio de apartamentos con el ritmo de una pista tecno.

El modelo pudo crear incluso una breve explicación del plegado de proteínas, al estilo de los videos con plastilina.

Pero así como sucede con otros modelos de IA para crear videos e imágenes, hay una lógica preocupación ante el abuso, como información falsa o deepfakes.

Google dice que desarrolló el modelo con información de sus equipos internos de seguridad y responsabilidad. Además, pasó por varias evaluaciones como las pruebas con especialistas externos al equipo de desarrollo para asegurar que sigue las políticas de seguridad y produce los resultados deseados. También se llevaron a cabo revisiones de ética y seguridad antes del lanzamiento.

Google afirma también que el contenido creado o editado con Omni tendrá una marca de agua digital SynthID invisible que hará que resulte más fácil verificar si el contenido se generó utilizando el modelo.

Compartir esta historia

Artículos relacionados