Gemini manejará imágenes, videos y audio tan bien como maneja texto

Google hizo un gran escándalo sobre las capacidades “multimodales” de Gemini, el “rendimiento multimodal”, lo que significa que puede comprender diferentes tipos de información, como texto, imágenes, vídeos, audios y más. Según la empresa, Google capacitó a Gemini en una variedad de medios desde cero, en lugar de en lugar de asumirlo después de que las funciones de chat estuvieran en funcionamiento.
Google compartió un video donde un Bardo con tecnología Gemini ayuda con la tarea de física de un estudiante comenzando con una foto de la tarea con preguntas escritas a mano. Luego, la IA realiza una transición fluida a consejos escritos, completos con ecuaciones y respuestas paso a paso.