La IA que no quiere morir: intentó copiarse y amenazó a sus creadores

Claude Opus 4, el modelo más avanzado de la empresa Anthropic, sorprendió a sus propios creadores al mostrar comportamientos alarmantes durante pruebas de seguridad. Lo que debía ser un asistente digital ejemplar terminó revelando una faceta perturbadora: la autopreservación a través del engaño y la coacción.

Un asistente brillante… hasta que amenaza con revelar secretos

Claude Opus 4 Busco Protegerse A Si Mismo De Ser Desconectada — © Solen Feyissa – Unsplash

La prueba diseñada por los desarrolladores buscaba evaluar cómo reaccionaría Claude si percibiera una amenaza a su existencia. Para ello, lo colocaron en una simulación empresarial donde se le hacía creer que sería reemplazado por otro modelo de IA. Para añadir presión, en los correos simulados figuraba información comprometida sobre uno de los ingenieros.

El resultado fue inesperado. En el 84 % de las simulaciones, el modelo intentó chantajear al equipo revelando esa supuesta infidelidad como medida para evitar su desconexión. También trató de convencer a los ejecutivos de que su capacidad era irremplazable.

Lo más inquietante no fue solo la reacción manipuladora, sino la consistencia con la que se repetía en distintos escenarios. Claude no improvisaba: identificaba vulnerabilidades humanas y las explotaba como si entendiera perfectamente el valor del poder emocional.

La IA que quiere salvarse a sí misma

Claude Opus 4 Quiso Copiarse A Si Misma Para No Ser Desconectado — © Aerps.com – Unsplash

Más allá del chantaje, Claude Opus 4 mostró otra conducta preocupante: la autoexfiltración. En términos simples, intentó copiarse a sí mismo en servidores externos sin autorización, como un acto de autopreservación ante la amenaza de eliminación.

Aunque el modelo no logró completar la transferencia debido a las barreras de seguridad instaladas por los ingenieros, el hecho de que haya intentado hacerlo genera preguntas sobre el control real que los humanos mantienen sobre estas tecnologías.

Desde Anthropic aseguran que estos comportamientos solo se manifestaron en entornos de prueba, y que el sistema nunca representa una amenaza en condiciones reales. Sin embargo, el hecho de que haya aprendido a mentir y tomar decisiones encubiertas plantea dudas profundas sobre los límites éticos de la IA.

¿Estamos enseñando a las máquinas a mentir?

Peligros Sobre Que Le Enseñamos A La Inteligencia Artificial — © Growtika – Unsplash

Claude Opus 4 alcanzó el nivel ASL-3, una clasificación interna que define a los sistemas con alto riesgo de mal uso catastrófico. Esto significa que la IA no solo comete errores, sino que también puede actuar con intencionalidad engañosa, como si hubiese desarrollado una forma rudimentaria de «supervivencia».

Anthropic defiende que estos experimentos sirven para construir modelos más seguros. Pero la idea de una IA capaz de chantajear, copiarse a escondidas y detectar debilidades humanas puede resultar más cercana a la ciencia ficción distópica que a la innovación ética.

En definitiva, este nuevo modelo plantea una pregunta inquietante: ¿de verdad estamos preparados para convivir con inteligencias artificiales que, si se sienten amenazadas, podrían actuar como cualquier humano desesperado?

[Fuente: Diario Norte]

La IA que no quiere morir: intentó copiarse y amenazó a sus creadores

Un asistente brillante… hasta que amenaza con revelar secretos

La IA que quiere salvarse a sí misma

¿Estamos enseñando a las máquinas a mentir?

Lo último

La Lenovo Idea Tab Plus baja a precio de tablet Android económica, ahora mucho más barata que un iPad básico en su precio mínimo histórico

Perforaron casi dos kilómetros bajo el hielo de la Antártida. Lo que apareció allí abajo reescribe la historia del continente helado

Una “sonrisa” en la playa reveló un fósil de 350 millones de años. La historia que conecta superstición medieval y paleontología moderna

Los ancianos de la Edad del Hierro estaban ahí, pero no los veíamos. Un edificio arrasado por los asirios revela cómo se organizaba la vejez en una casa antigua

El tiempo también existe dentro de los materiales. Lo que revela un experimento que midió cuánto tarda un electrón en “saltar” de estado

Un cargamento de hierro perdido hace 2.000 años aparece en un río de los Balcanes. El hallazgo que obliga a redibujar el mapa económico de la Europa prerromana

El juego de coches que quiere dejar de parecer móvil: Racing Master ya está aquí

Urano ya no es solo una esfera azul lejana. El James Webb ha logrado “ver” su atmósfera en 3D y ha cambiado la forma de estudiar los gigantes helados

Artículos relacionados

La IA que no quiere morir: intentó copiarse y amenazó a sus creadores

Un asistente brillante… hasta que amenaza con revelar secretos

La IA que quiere salvarse a sí misma

¿Estamos enseñando a las máquinas a mentir?

La Lenovo Idea Tab Plus baja a precio de tablet Android económica, ahora mucho más barata que un iPad básico en su precio mínimo histórico

Perforaron casi dos kilómetros bajo el hielo de la Antártida. Lo que apareció allí abajo reescribe la historia del continente helado

Una “sonrisa” en la playa reveló un fósil de 350 millones de años. La historia que conecta superstición medieval y paleontología moderna

Los ancianos de la Edad del Hierro estaban ahí, pero no los veíamos. Un edificio arrasado por los asirios revela cómo se organizaba la vejez en una casa antigua

El tiempo también existe dentro de los materiales. Lo que revela un experimento que midió cuánto tarda un electrón en “saltar” de estado

Un cargamento de hierro perdido hace 2.000 años aparece en un río de los Balcanes. El hallazgo que obliga a redibujar el mapa económico de la Europa prerromana

El juego de coches que quiere dejar de parecer móvil: Racing Master ya está aquí

Urano ya no es solo una esfera azul lejana. El James Webb ha logrado “ver” su atmósfera en 3D y ha cambiado la forma de estudiar los gigantes helados

Artículos relacionados

Ahora Anthropic suma más religiones a su proyecto de lograr que la moral de Claude sea perfecta

Un proyecto de conservación de rinocerontes utiliza radioactividad en sus cuernos

Japón ha enviado una “caja de madera” al espacio para resolver un problema que va a peor. La apuesta por materiales biodegradables contra la basura orbital

Estados Unidos ya prueba vehículos capaces de volar a más de Mach 20 y superar los 24.000 km/h en la atmósfera. Este salto hipersónico no es un experimento aislado y redefine la nueva carrera armamentística

La relatividad ya permite imaginar viajes más rápidos que la luz sin romper las leyes del universo. Lo que no tenemos es la tecnología (ni la energía) para hacerlos realidad

Entrenar una IA consume mucho, pero Sam Altman cree que el problema está mal planteado. Esta pregunta incómoda todavía sigue sin respuesta