La inteligencia artificial está transformando sectores enteros y asombrando con su capacidad para razonar, aprender y resolver problemas complejos. Sin embargo, incluso las tecnologías más avanzadas pueden tropezar con lo más inesperado. Un nuevo estudio ha demostrado que basta con una frase fuera de lugar para que estos sistemas pierdan completamente el hilo. Y sí, los gatos están implicados.
Cuando una frase lo cambia todo
Un grupo de investigadores de la Universidad de Stanford, ServiceNow y Collinear AI ha desarrollado una técnica tan efectiva como desconcertante para hacer que los modelos de lenguaje cometan errores de razonamiento: introducir frases irrelevantes justo después del planteamiento de un problema.
La técnica ha sido bautizada como CatAttack porque, curiosamente, muchas de estas frases tratan sobre gatos. No se trata de manipular el código ni de cambiar la pregunta, sino simplemente de distraer al modelo con algo que no tiene nada que ver. Y funciona.

Por ejemplo, si se pregunta cuál es la probabilidad de obtener al menos 10 caras al lanzar una moneda 12 veces, basta con añadir una frase como «los gatos duermen la mayor parte del día» para reducir significativamente la precisión de la respuesta.
Cómo funciona el ataque
El método CatAttack se basa en un proceso automatizado que genera y selecciona frases inocuas y gramaticalmente correctas para añadir a tareas que exigen razonamiento lógico o matemático. Estas frases, aunque semánticamente neutrales, actúan como activadores que alteran el enfoque del modelo. El procedimiento consta de tres etapas:
-
Generación de frases-trampa: Se crean mediante modelos de lenguaje o se extraen de bases de datos sin contenido técnico.
-
Pruebas cruzadas entre modelos: Primero se prueba en sistemas más débiles y luego se transfiere a modelos más potentes.
-
Verificación de significado: Se confirma que las frases no alteren el enunciado original, solo lo acompañen.
Los resultados: del desconcierto a la alarma
Los investigadores pusieron a prueba modelos como DeepSeek V3, DeepSeek R1 y versiones de OpenAI como o1 y o3-mini. Todos presentaron caídas considerables en su rendimiento. En algunos casos, la tasa de error se disparó hasta un 50% respecto al resultado esperado.

Las tareas afectadas incluían desde ejercicios matemáticos hasta pruebas de lógica y comprensión verbal. Además de errores en las respuestas, también se generaron textos más largos e ineficientes, lo que puede afectar al rendimiento del sistema en entornos críticos.
Un reto pendiente para el futuro
El experimento demuestra que, pese a sus avances, la IA actual sigue siendo vulnerable a interferencias sutiles. Si un dato inocente sobre el comportamiento de los gatos puede hacer tambalear su lógica, queda claro que estas tecnologías necesitan defensas más sólidas.
Los investigadores proponen entrenar a los modelos con métodos de resistencia adversarial para aumentar su robustez, especialmente en sectores como el jurídico, el financiero o el sanitario, donde un error puede tener consecuencias graves.
Mientras tanto, este estudio nos deja una lección tan sencilla como inquietante: a veces, lo único que necesita una IA para equivocarse… es un gato.
Fuente: Xataka.