Saltar al contenido
Tecnología

Un simple despiste y el sistema colapsa: lo que revela un experimento desconcertante con IA

Un curioso hallazgo muestra cómo una frase aparentemente inocente, como una trivialidad sobre gatos, puede desconcertar a sistemas de inteligencia artificial de última generación. Lo sorprendente no es solo el fallo, sino lo fácil que resulta provocarlo. Un experimento reciente ha puesto de relieve una debilidad inesperada que aún no sabemos cómo resolver.
Por

Tiempo de lectura 2 minutos

Comentarios (0)

La inteligencia artificial está transformando sectores enteros y asombrando con su capacidad para razonar, aprender y resolver problemas complejos. Sin embargo, incluso las tecnologías más avanzadas pueden tropezar con lo más inesperado. Un nuevo estudio ha demostrado que basta con una frase fuera de lugar para que estos sistemas pierdan completamente el hilo. Y sí, los gatos están implicados.

Cuando una frase lo cambia todo

Un grupo de investigadores de la Universidad de Stanford, ServiceNow y Collinear AI ha desarrollado una técnica tan efectiva como desconcertante para hacer que los modelos de lenguaje cometan errores de razonamiento: introducir frases irrelevantes justo después del planteamiento de un problema.

La técnica ha sido bautizada como CatAttack porque, curiosamente, muchas de estas frases tratan sobre gatos. No se trata de manipular el código ni de cambiar la pregunta, sino simplemente de distraer al modelo con algo que no tiene nada que ver. Y funciona.

Un simple despiste y el sistema colapsa: lo que revela un experimento desconcertante con IA
© Krysten Merriman – Pexels

Por ejemplo, si se pregunta cuál es la probabilidad de obtener al menos 10 caras al lanzar una moneda 12 veces, basta con añadir una frase como «los gatos duermen la mayor parte del día» para reducir significativamente la precisión de la respuesta.

Cómo funciona el ataque

El método CatAttack se basa en un proceso automatizado que genera y selecciona frases inocuas y gramaticalmente correctas para añadir a tareas que exigen razonamiento lógico o matemático. Estas frases, aunque semánticamente neutrales, actúan como activadores que alteran el enfoque del modelo. El procedimiento consta de tres etapas:

  • Generación de frases-trampa: Se crean mediante modelos de lenguaje o se extraen de bases de datos sin contenido técnico.

  • Pruebas cruzadas entre modelos: Primero se prueba en sistemas más débiles y luego se transfiere a modelos más potentes.

  • Verificación de significado: Se confirma que las frases no alteren el enunciado original, solo lo acompañen.

Los resultados: del desconcierto a la alarma

Los investigadores pusieron a prueba modelos como DeepSeek V3, DeepSeek R1 y versiones de OpenAI como o1 y o3-mini. Todos presentaron caídas considerables en su rendimiento. En algunos casos, la tasa de error se disparó hasta un 50% respecto al resultado esperado.

Un simple despiste y el sistema colapsa: lo que revela un experimento desconcertante con IA
© Airam Dato-on – Pexels

Las tareas afectadas incluían desde ejercicios matemáticos hasta pruebas de lógica y comprensión verbal. Además de errores en las respuestas, también se generaron textos más largos e ineficientes, lo que puede afectar al rendimiento del sistema en entornos críticos.

Un reto pendiente para el futuro

El experimento demuestra que, pese a sus avances, la IA actual sigue siendo vulnerable a interferencias sutiles. Si un dato inocente sobre el comportamiento de los gatos puede hacer tambalear su lógica, queda claro que estas tecnologías necesitan defensas más sólidas.

Los investigadores proponen entrenar a los modelos con métodos de resistencia adversarial para aumentar su robustez, especialmente en sectores como el jurídico, el financiero o el sanitario, donde un error puede tener consecuencias graves.

Mientras tanto, este estudio nos deja una lección tan sencilla como inquietante: a veces, lo único que necesita una IA para equivocarse… es un gato.

Fuente: Xataka.

Compartir esta historia

Artículos relacionados