Los modelos de inteligencia artificial desarrollados por DeepMind de Google y OpenAI pueden sumar un logro más a su lista de éxitos: les ganaron en matemáticas a unos estudiantes de la escuela secundaria. Ambas compañías afirman haber ganado una medalla de oro en las Olimpíadas Internacionales de Matemáticas (IMO, en inglés), una de las competencias más duras para estudiantes de la secundaria que buscan demostrar su capacidad matemática.
Las Olimpíadas invitan a estudiantes de todo el mundo a participar de un examen que requiere que resuelvan una cantidad de problemas matemáticos complejos y de múltiples pasos. Los estudiantes pasan dos días resolviendo los exámenes, que se agrupan de a dos, de cuatro horas y media cada uno. Deben resolver en total seis preguntas, con puntaje que se asigna según vayan completando diferentes partes de los problemas. Los modelos de DeepMind y OpenAI resolvieron perfectamente cinco de las seis preguntas, obteniendo un puntaje de 35 sobre 42 puntos posibles, suficiente como para la medalla de oro. Participaron 630 humanos, de los que 67 lograron llevarse a casa la medalla de oro.
Hay un detalle que en realidad no tiene que ver con los resultados, sino más con el comportamiento de las compañías. Se había invitado a DeepMind a participar de las IMO, y anunció en un posteo del blog el lunes que había ganado la medalla de oro, después de que la organización publicara los resultados oficiales de los participantes humanos. Según Implicator.ai, OpenAI no se inscribió para las IMO sino que tomó los problemas – que se publican para que otros puedan tratar de resolverlos – y los resolvieron por su cuenta. OpenAI anunció que su desempeño era del nivel de la medalla de oro, pero eso no se puede verificar porque no participó de las olimpíadas. Además, la compañía anunció su puntaje el fin de semana en lugar de esperar hasta el lunes (cuando se anuncian los puntajes oficiales), en contra de los deseos de las IMO que habían solicitado a las compañías que no les robaran el protagonismo a los estudiantes.
Iguales condiciones
Los modelos utilizados para resolver los problemas participaron del examen en iguales condiciones que las de los estudiantes, con 4,5 horas para cada examen y sin poder utilizar herramientas externas o acceder a Internet. Lo notable es que parece que las dos compañías utilizaron la IA de propósitos generales en lugar de modelos especializados, que antes habían funcionado mucho mejor que los modelos para todo uso.
Uno de los datos a señalar sobre lo que afirman las compañías en cuanto a su medalla de oro: ninguno de los modelos que lograron el oro está disponible para el público. De hecho, los modelos públicos no resolvieron los problemas matemáticos, aunque los investigadores los pasaronpor Gemini 2.5 Pro, Gro-4 y OpenAI 04, pero ninguno de estos modelos logró un puntaje mayor a 13 puntos, menos de los 19 requeridos para la medalla de bronce.
Todavía hay mucho escepticismo en cuanto a los resultados, y el hecho de que los modelos disponibles al público fracasaran, sugiere que hay una brecha entre las herramientas a las que podemos acceder y lo que puede hacer un modelo más avanzado, lo que debería hacer que nos preguntemos por qué esos modelos más inteligentes no pueden hacerse a escala, o ponerse a disposición de todos. Pero hay dos cosas que podemos aprender de esto: los modelos de laboratorio están mejorando en el razonamiento para resolver problemas, y OpenAI está liderada por un grupo de tontos impacientes por robarles la gloria a unos adolescentes.