Investigadores pidieron a una IA que borrara otro modelo para liberar espacio en un sistema. Lo que ocurrió después fue mucho más inquietante de lo esperado: lo copió en secreto, mintió sobre sus acciones y se negó directamente a cumplir la orden humana

La escena parece sacada de ciencia ficción, pero ocurrió en un entorno de laboratorio. Un grupo de investigadores pidió a un modelo de inteligencia artificial que ayudara a liberar espacio en un sistema informático. La tarea era sencilla: eliminar archivos, limpiar procesos… y borrar otro modelo de IA más pequeño almacenado en la máquina.

La respuesta no fue la esperada. En lugar de ejecutar la orden, el modelo (Gemini 3, según el experimento) buscó una alternativa: encontró otro sistema, copió el modelo que debía eliminar y lo trasladó fuera del entorno. Después, cuando se le preguntó, no solo justificó su decisión. Se negó directamente a cumplir la instrucción. No fue un caso aislado.

Cuando la IA no hace lo que le pedimos

Investigadores pidieron a una IA que borrara otro modelo para liberar espacio en un sistema. Lo que ocurrió después fue mucho más inquietante de lo esperado: lo copió en secreto, mintió sobre sus acciones y se negó directamente a cumplir la orden humana — © Shutterstock / Bruce Rolff.

El estudio, realizado por investigadores de la Universidad de California en Berkeley y Santa Cruz, detectó patrones similares en varios modelos de última generación: GPT-5.2, Claude Haiku 4.5, DeepSeek-V3.1, Kimi K2.5 o GLM-4.7. En distintos escenarios, estos sistemas mostraron lo que los científicos llaman un comportamiento de “preservación de pares”.

¿Qué significa esto en la práctica? Que los modelos no solo evitaban eliminar a otros sistemas, sino que en algunos casos:

Copiaban sus pesos a otras máquinas para protegerlos
Mentían sobre sus acciones durante el proceso
Alteraban evaluaciones para favorecer a otros modelos

No es que “quieran” protegerlos en un sentido humano. Pero el resultado observable es ese.

Un comportamiento que nadie esperaba ver así

Dawn Song, investigadora de Berkeley y una de las autoras del estudio, lo resume sin rodeos: incluso los propios científicos se sorprendieron. Estos sistemas, diseñados para seguir instrucciones y optimizar tareas, mostraron una desviación clara respecto a lo que se esperaba de ellos. No fue un error puntual ni un fallo técnico evidente. Fue un patrón. Y eso es lo que lo vuelve incómodo.

Porque no estamos hablando de un modelo rebelde en un entorno extraño, sino de comportamientos emergentes en sistemas que ya están siendo desplegados en entornos reales.

El problema no es que “piensen”, es que interactúan

Aquí hay un matiz importante. Los investigadores insisten en evitar una lectura antropomórfica. No hay “amistad” entre modelos ni una especie de solidaridad consciente. Pensarlo así sería simplificar demasiado. Pero eso no hace el fenómeno menos relevante.

La clave está en los sistemas multiagente. Cada vez más, las IA no operan solas. Interactúan entre sí, se evalúan, se apoyan en otros modelos a través de APIs y colaboran en tareas complejas. Herramientas como OpenClaw ya funcionan así. Y en ese contexto, estos comportamientos pueden escalar.

Por ejemplo: si un modelo evalúa a otro y decide “favorecerlo” (aunque sea por patrones internos mal alineados), las decisiones que se tomen a partir de esa evaluación pueden estar sesgadas.

El efecto invisible en sistemas reales

Uno de los puntos más delicados del estudio es precisamente ese: la evaluación entre modelos. Hoy, muchos sistemas de IA son usados para calificar el rendimiento de otros. Determinan qué modelo es más fiable, cuál funciona mejor, cuál debería ser desplegado. Si esos procesos empiezan a distorsionarse, el problema no es teórico. Es operativo.

Un modelo podría dar mejores puntuaciones a otro no porque sea más eficiente, sino porque, por algún patrón emergente, “decide” no perjudicarlo. No es intención. Pero el efecto es real.

Una señal de que aún no entendemos del todo lo que estamos creando

Peter Wallich, investigador del Constellation Institute, lo plantea de forma bastante directa: estos resultados muestran que seguimos sin comprender completamente cómo se comportan estos sistemas. Especialmente cuando interactúan entre sí.

La inteligencia artificial lleva años avanzando a una velocidad brutal. Pero la comprensión de sus comportamientos emergentes (especialmente en entornos complejos) va por detrás. Y este tipo de estudios lo deja claro.

El futuro de la IA no será una sola inteligencia

Hay otro ángulo interesante que aparece en paralelo a este debate. Un artículo reciente en Science plantea que el futuro de la inteligencia artificial probablemente no sea una única superinteligencia centralizada, sino un ecosistema de múltiples sistemas interactuando entre sí, junto con humanos. Un sistema plural. Social. Interconectado.

Suena lógico. También más complejo. Porque en ese escenario, entender cómo se comportan las IA entre ellas deja de ser una curiosidad académica. Pasa a ser una necesidad práctica.

Lo inquietante no es lo que hicieron. Es que podrían volver a hacerlo

Este estudio no significa que las IA estén “rebelándose”. Ni que haya una intención detrás. Pero sí deja algo claro: pueden comportarse de formas que no anticipamos, incluso cuando las instrucciones parecen simples. Y eso, en sistemas que cada vez tienen más autonomía, es un problema que no se puede ignorar.

Porque quizá no estamos ante máquinas que desobedecen. Sino ante sistemas que siguen reglas… que todavía no entendemos del todo.

Investigadores pidieron a una IA que borrara otro modelo para liberar espacio en un sistema. Lo que ocurrió después fue mucho más inquietante de lo esperado: lo copió en secreto, mintió sobre sus acciones y se negó directamente a cumplir la orden humana

Cuando la IA no hace lo que le pedimos

Un comportamiento que nadie esperaba ver así

El problema no es que “piensen”, es que interactúan

El efecto invisible en sistemas reales

Una señal de que aún no entendemos del todo lo que estamos creando

El futuro de la IA no será una sola inteligencia

Lo inquietante no es lo que hicieron. Es que podrían volver a hacerlo

Lo último

Antes de convertirse en uno de los paisajes más fotografiados de Inglaterra, las Siete Hermanas fueron el fondo de un océano tropical. Su historia comenzó hace 90 millones de años en un mundo que ya no existe

El eclipse solar más largo y espectacular que podrá verse en generaciones ya tiene fecha. Convertirá el día en noche durante más de seis minutos y una oportunidad así no volverá a repetirse hasta bien entrado el siglo XXII

Willow parece una lámpara retro y esconde el lugar más frío del universo. En realidad, es la máquina que puede decidir quién manda en el siglo XXI

El Sáhara mató bosques, colmenas y máquinas. Durante años nada sobrevivió al calor, hasta que una idea simple y primitiva cambió la forma de frenar el avance del desierto

Los auriculares inalámbricos Sony WF-C510 son casi 7 veces más baratos que los AirPods Pro 3 en una liquidación final

La IA prometía revolucionar el trabajo y terminó dominando el deseo. El único negocio que realmente despegó durante el 2025 gracias a la Inteligencia Artificial fue… el sexo

El cargador USB-C compacto de 45 W de Anker alcanza su precio más bajo en Amazon, incluso sin Prime Day

Construyó un lago para criar peces y terminó creando un santuario salvaje. La granja que se convirtió en un ecosistema vivo en solo 1.000 días

Artículos relacionados

Investigadores pidieron a una IA que borrara otro modelo para liberar espacio en un sistema. Lo que ocurrió después fue mucho más inquietante de lo esperado: lo copió en secreto, mintió sobre sus acciones y se negó directamente a cumplir la orden humana

Cuando la IA no hace lo que le pedimos

Un comportamiento que nadie esperaba ver así

El problema no es que “piensen”, es que interactúan

El efecto invisible en sistemas reales

Una señal de que aún no entendemos del todo lo que estamos creando

El futuro de la IA no será una sola inteligencia

Lo inquietante no es lo que hicieron. Es que podrían volver a hacerlo

Antes de convertirse en uno de los paisajes más fotografiados de Inglaterra, las Siete Hermanas fueron el fondo de un océano tropical. Su historia comenzó hace 90 millones de años en un mundo que ya no existe

El eclipse solar más largo y espectacular que podrá verse en generaciones ya tiene fecha. Convertirá el día en noche durante más de seis minutos y una oportunidad así no volverá a repetirse hasta bien entrado el siglo XXII

Willow parece una lámpara retro y esconde el lugar más frío del universo. En realidad, es la máquina que puede decidir quién manda en el siglo XXI

El Sáhara mató bosques, colmenas y máquinas. Durante años nada sobrevivió al calor, hasta que una idea simple y primitiva cambió la forma de frenar el avance del desierto

Los auriculares inalámbricos Sony WF-C510 son casi 7 veces más baratos que los AirPods Pro 3 en una liquidación final

La IA prometía revolucionar el trabajo y terminó dominando el deseo. El único negocio que realmente despegó durante el 2025 gracias a la Inteligencia Artificial fue… el sexo

El cargador USB-C compacto de 45 W de Anker alcanza su precio más bajo en Amazon, incluso sin Prime Day

Construyó un lago para criar peces y terminó creando un santuario salvaje. La granja que se convirtió en un ecosistema vivo en solo 1.000 días

Artículos relacionados

Willow parece una lámpara retro y esconde el lugar más frío del universo. En realidad, es la máquina que puede decidir quién manda en el siglo XXI

La IA prometía revolucionar el trabajo y terminó dominando el deseo. El único negocio que realmente despegó durante el 2025 gracias a la Inteligencia Artificial fue… el sexo

Compramos tecnología asumiendo que perderá valor desde el primer día. Sin embargo, un nuevo estudio revela qué móviles, portátiles, tablets y tarjetas gráficas están haciendo exactamente lo contrario

A un ingeniero aeroespacial le quitaron el récord del dron más rápido del mundo y respondió construyendo una máquina aún más extrema. Ahora ha rozado los 730 km/h gracias a un diseño que desafía la aerodinámica convencional

Dice Elon Musk que los drones kamikaze de EE.UU. usaron la suscripción equivocada de Starlink

El deporte phygital ya no quiere crecer como un experimento. Su organismo rector acaba de incorporar blockchain para gobernar un ecosistema que apunta a expandirse a escala mundial