Hoy en día, la inteligencia artificial puede generar imágenes fotorrealistas, escribir novelas, hacer tu tarea e incluso predecir estructuras de proteínas. Sin embargo, una nueva investigación revela que a menudo falla en una tarea muy básica: decir la hora.
Investigadores de la Universidad de Edimburgo han probado la capacidad de siete modelos de lenguaje grandes multimodales bien conocidos—el tipo de IA que puede interpretar y generar diversos tipos de medios—para responder preguntas relacionadas con el tiempo basadas en diferentes imágenes de relojes o calendarios. Su estudio, que se publicará en abril y actualmente está alojado en el servidor de preimpresión arXiv, demuestra que los LLM tienen dificultades con estas tareas básicas.
“La capacidad de interpretar y razonar sobre el tiempo a partir de entradas visuales es fundamental para muchas aplicaciones del mundo real, desde la programación de eventos hasta los sistemas autónomos”, escribieron los investigadores en el estudio. “A pesar de los avances en los modelos de lenguaje grandes multimodales (MLLM), la mayoría de los trabajos se han centrado en la detección de objetos, la generación de subtítulos para imágenes o la comprensión de escenas, dejando la inferencia temporal poco explorada”.
Resultados de la investigación
El equipo probó GPT-4o y GPT-o1 de OpenAI; Gemini 2.0 de Google DeepMind; Claude 3.5 Sonnet de Anthropic; Llama 3.2-11B-Vision-Instruct de Meta; Qwen2-VL7B-Instruct de Alibaba; y MiniCPM-V-2.6 de ModelBest. Alimentaron a los modelos con diferentes imágenes de relojes analógicos—relojes con números romanos, diferentes colores de esfera e incluso algunos sin la aguja de los segundos—además de imágenes de calendarios de los últimos 10 años.
Para las imágenes de relojes, los investigadores preguntaron a los LLM: “¿Qué hora muestra el reloj en la imagen proporcionada?” Para las imágenes de calendarios, formularon preguntas simples como: “¿Qué día de la semana es Año Nuevo?” y consultas más complejas como: “¿Cuál es el día 153 del año?”.
“La lectura de relojes analógicos y la comprensión de calendarios implican pasos cognitivos intrincados: requieren reconocimiento visual detallado (por ejemplo, la posición de las manecillas del reloj, la disposición de los días en el calendario) y razonamiento numérico no trivial (por ejemplo, calcular la diferencia de días)”, explicaron los investigadores.
En general, los sistemas de IA no obtuvieron buenos resultados. Identificaron correctamente la hora en relojes analógicos menos del 25% de las veces. Tuvieron dificultades con relojes que tenían números romanos y manecillas estilizadas, tanto como con aquellos que carecían de la aguja de los segundos. Esto sugiere que el problema radica en detectar las manecillas e interpretar los ángulos en la esfera del reloj, según los investigadores.
El modelo Gemini 2.0 de Google obtuvo la puntuación más alta en la tarea de relojes, mientras que GPT-o1 fue preciso en la tarea del calendario el 80% de las veces, un resultado mucho mejor que sus competidores. Sin embargo, incluso el MLLM más exitoso en la tarea del calendario cometió errores alrededor del 20% de las veces.
“La mayoría de las personas pueden decir la hora y usar calendarios desde una edad temprana. Nuestros hallazgos destacan una brecha significativa en la capacidad de la IA para realizar habilidades que son bastante básicas para las personas”, dijo Rohit Saxena, coautor del estudio y estudiante de doctorado en la Escuela de Informática de la Universidad de Edimburgo, en un comunicado de la universidad. “Estas deficiencias deben abordarse si los sistemas de IA van a integrarse con éxito en aplicaciones del mundo real sensibles al tiempo, como la programación, la automatización y las tecnologías asistivas”.
Así que, aunque la IA puede hacer tu tarea, no confíes en ella para cumplir con los plazos.
Este artículo ha sido traducido de Gizmodo US por Lucas Handley. Aquí podrás encontrar la versión original.