Prohíben el lanzamiento de modelos de IA por ser terriblemente potentes, lo que provocó temor en el gobierno

Según declaraciones que se postearon el viernes en el sitio web de Anthropic, la compañía se vio obligada a “deshabilitar abruptamente” dos de sus modelos de IA más avanzados. Fue una orden del gobierno la que impidió su lanzamiento. “Creemos que se trata de un malentendido y estamos trabajando para restablecer el acceso lo antes posible”, dice la compañía.

La acción del gobierno es una “directiva de control de exportación”, que dice que ningún extranjero puede utilizar los modelos, dentro o fuera de EE.UU. La motivación fue lo que Anthropic llama preocupación no especificada por la seguridad nacional.

Pero la preocupación por la seguridad nacional, al igual que otros temores, siempre estuvo presente ante el lanzamiento de estos modelos y por eso era previsible lo ocurrido ahora.

En lugar de lanzar al público su modelo Claude Mythos Preview, a principios de abril Anthropic convirtió la creación del modelo en algo así como una campaña de concientización sobre los ostensibles peligros de los modelos avanzados de IA.

Publicó una system card, o documento de transparencia sobre el modelo, que explicaba por qué no podía ofrecerse públicamente y detallaba capacidades riesgosas como el engaño y la capacidad de supuestamente romper la contención en un sistema limitado. Además, decía que podía ayudar en el desarrollo de armas de avanzada. La system card describía que el modelo era “capaz de efectuar una importante síntesis de dominios cruzados, importante para el desarrollo de catastróficas armas biológicas”.

Al mismo tiempo la compañía lanzó el Project Glasswing, programa en el que un limitado grupo de socios y organizaciones podrían utilizar una muestra del modelo para saber qué nuevos y terribles problemas podría causar en el mundo de la ciberseguridad. “Formamos el proyecto Glasswing debido a capacidades que observamos en el nuevo modelo de avanzada entrenado por Anthropic y que creemos podrían afectar a la ciberseguridad”, dice el posteo de blog de Anthropic respecto al proyecto Glasswing.

Y poco después, a pesar de que el tema era más propio de los nerds, Mythos Preview llegó a la prensa amarilla. Un artículo del New York Post citó al científico en computación Roman Yampolskiy que profetizaba que la IA pronto podría “desarrollar herramientas de hackeo, armas biológicas, armas químicas y armas novedosas que ni siquiera podemos imaginar”. Esa frase, “armas que ni siquiera podemos imaginar”, aparecía en el título de la nota.

Del alarmismo sobre la IA a la intervención gubernamental

Funcionarios del gobierno británico y líderes del sector financiero de Reino Unido se unieron en un plan de acción a la luz del peligro que se percibía. Según el New York Times, la “política no intervencionista” de Trump respecto de la IA cambió tras el anuncio de Mythos, y su sola existencia contribuyó a que se dictara la orden ejecutiva centrada en el riesgo que la IA representa para la seguridad. Trump firmó la orden hace más o menos una semana.

Sin embargo, la semana pasada Anthropic lanzó Claude Fable 5 y Mythos 5. La compañía describió a Fable 5 como “modelo de la clase Mythos que diseñamos para que sea seguro para el uso general” pero con capacidades que “exceden a las de cualquier modelo que hayamos lanzado antes”. El Mythos 5, mientras tanto, solo se lanzó de manera limitada como parte del proyecto Glasswing.

En Blood in the Machine, Brian Marchant lo describió así:

Tras dar lugar a un importante ciclo de noticias en tecnología con su anuncio en abril de que había desarrollado el modelo de IA Mythos, tan potente, tan peligroso que amenazaba con poner patas arriba todo el orden de la civilización y que diligentemente frenaba el lanzamiento al público para protegernos de éste, ahora la startup de IA número 1 decidió poner el Mythos a la venta después de todo.

A solo horas de que Merchant escribiera esto, Anthropic recibió la directiva de control de exportación y se bloqueó el acceso tanto del Fable 5 como del Mythos 5 aparentemente debido a preocupación por la seguridad nacional. Tal parece que solo se le ordenaba a Anthropic a impedir el acceso a usuarios que no fueran ciudadanos estadounidenses, pero es entendible que para Anthropic no fuese práctico permitir el acceso a cualquiera que estuviera en el mundo por temor a desobedecer la orden. Entre otros problemas, hay muchos ciudadanos extranjeros que trabajan en Anthropic por lo que claramente era más simple impedir el acceso a todos hasta tanto se resuelva la situación.

Es interesante que la declaración de Anthropic respecto de la directiva de control de exportación señalaba que Anthropic “había trabajado con el gobierno de EE.UU.” y el gobierno de Reino Unido, además de “varias organizaciones privadas de terceros”, en su esfuerzo por crear un conjunto satisfactorio de salvaguardas para los modelos. En su lanzamiento esas salvaguardas eran “la característica más prominente en la narrativa de los medios sobre el Fable 5. Una de las salvaguardas más robustas, diseñada para castigar calladamente a los usuarios que hicieran mal uso del modelo, se consideró maliciosa y Anthropic debió disculparse.

Pero según Anthropic el gobierno se asustó al enterarse de que había un jailbreak en Fable 5 que invalidaba todas esas salvaguardas. Un jailbreak implica efectuar cambios a la tecnología para usarla de una forma que su productor no quería que se utilizara y que podría estar prohibida.

“Entendemos que el gobierno cree que se ha enterado de un método para invalidar las salvaguardas del Fable 5, un jailbrake. Hemos revisado la demostración del uso de esta técnica específica para identificar una cantidad de vulnerabilidades menores que ya se conocían. Son vulnerabilidades que parecen relativamente simples y encontramos que otros modelos de acceso público lograron descubrirlas también, sin vulneraciones.

Anthropic señala, y con razón, que al lanzar el Fable 5 la sección de su posteo de blog sobre la seguridad del modelo dejaba en claro que había posibilidad de algunas vulneraciones. Es “probablemente imposible prevenir por completo las vulnerabilidades universales pero nuestro objetivo es hacer que cualquier posibilidad de vulneración sea tan lenta y costosa como para que podamos detectarla y prevenirla antes de que se utilice a escala”, escribió Anthropic.

Esencialmente, todavía no es posible lograr un modelo a prueba de vulnerabilidades y violaciones. Anthropic buscó entonces hacer que las violaciones sean demasiado costosas o poco funcionales, y además ha publicado que registra y guarda los datos de los usuarios de modelos de la clase Mythos mucho más que para los demás modelos.

Con todo, resulta extraño ver que ahora Anthropic minimiza la importancia de los peligros percibidos en sus modelos, diciendo que son vulnerabilidades “menores”, “ya conocidas”, y “relativamente simples”, además de señalar que “otros modelos de acceso público lograron descubrirlas sin vulneraciones”.

Cuando Anthropic hizo público los modelos de esta clase, anunció al mundo que había creado algo con potencia sin precedentes, que potencialmente podría perjudicar realmente al mundo. Y dos meses después, un modelo “de clase Mythos” estaba disponible al público como producto premium para usuarios de “Pro, Max, Team y Enterprise, sin costo extra”, pero solo por tiempo limitado. El 23 de junio, Anthropic planeaba “eliminar el Fable 5” de esos planes para que el acceso fuera pago cada vez.

Anthropic afirma que las acciones del gobierno, si se vuelven habituales, podrían “frenar todo nuevo desarrollo en todos los proveedores de modelos de avanzada”. Y tal vez sea verdad. Que un producto se prohíba cuando el lanzamiento de ese producto tiene que ver con tecnología precursora que supuestamente amerita una reevaluación global de ciberseguridad y que cause reacción ante vulnerabilidades de las salvaguardas de ese producto, no tendría que sorprendernos incluso si la reacción es desfavorable para el negocio.

Prohíben el lanzamiento de modelos de IA por ser terriblemente potentes, lo que provocó temor en el gobierno

Del alarmismo sobre la IA a la intervención gubernamental

Lo último

Australia pasó décadas persiguiendo y sacrificando a sus burros salvajes por considerarlos una amenaza. Ahora sospecha que sus patas y sus excavaciones podrían ayudar al desierto a guardar agua y resistir mejor las sequías

Se marchó a una selva sin carreteras, electricidad ni vecinos y levantó su propia casa frente a un lago en solo 120 días. El proyecto viral terminó convirtiéndose en un experimento radical sobre cuánto necesitamos realmente para vivir

Estas estrellas violentas no esperan a explotar para sembrar el universo. Un sistema extremo fabrica cada año el equivalente a tres lunas en polvo de carbono capaz de terminar dentro de nuevas galaxias y planetas

El volcán más activo de Hawái ya erupcionó 52 veces desde 2024 y esta vez lanzó lava a 150 metros de altura: los científicos ya ven las señales del episodio 53

Momias de princesas guerreras, lenguas de oro y represas escondidas junto a una pirámide: los cinco hallazgos que sacudieron Egipto este julio

Hay criaturas marinas que no sobreviven cuando las rescatamos del abismo. La presión de cuatro kilómetros de océano no las aplasta: es la fuerza que mantiene unido cada centímetro de su cuerpo

Un giro de apenas un grado entre dos láminas atómicas ha producido un efecto magnético descomunal. Las estructuras resultantes crecieron hasta diez veces más de lo que permitían predecir los modelos

China acaba de llevar las baterías de litio a un territorio que parecía reservado a los combustibles. Superan los 700 Wh/kg y todavía almacenan más energía a −50 °C que muchas celdas actuales en condiciones normales

Artículos relacionados

Prohíben el lanzamiento de modelos de IA por ser terriblemente potentes, lo que provocó temor en el gobierno

Del alarmismo sobre la IA a la intervención gubernamental

Australia pasó décadas persiguiendo y sacrificando a sus burros salvajes por considerarlos una amenaza. Ahora sospecha que sus patas y sus excavaciones podrían ayudar al desierto a guardar agua y resistir mejor las sequías

Se marchó a una selva sin carreteras, electricidad ni vecinos y levantó su propia casa frente a un lago en solo 120 días. El proyecto viral terminó convirtiéndose en un experimento radical sobre cuánto necesitamos realmente para vivir

Estas estrellas violentas no esperan a explotar para sembrar el universo. Un sistema extremo fabrica cada año el equivalente a tres lunas en polvo de carbono capaz de terminar dentro de nuevas galaxias y planetas

El volcán más activo de Hawái ya erupcionó 52 veces desde 2024 y esta vez lanzó lava a 150 metros de altura: los científicos ya ven las señales del episodio 53

Momias de princesas guerreras, lenguas de oro y represas escondidas junto a una pirámide: los cinco hallazgos que sacudieron Egipto este julio

Hay criaturas marinas que no sobreviven cuando las rescatamos del abismo. La presión de cuatro kilómetros de océano no las aplasta: es la fuerza que mantiene unido cada centímetro de su cuerpo

Un giro de apenas un grado entre dos láminas atómicas ha producido un efecto magnético descomunal. Las estructuras resultantes crecieron hasta diez veces más de lo que permitían predecir los modelos

China acaba de llevar las baterías de litio a un territorio que parecía reservado a los combustibles. Superan los 700 Wh/kg y todavía almacenan más energía a −50 °C que muchas celdas actuales en condiciones normales

Artículos relacionados

China acaba de llevar las baterías de litio a un territorio que parecía reservado a los combustibles. Superan los 700 Wh/kg y todavía almacenan más energía a −50 °C que muchas celdas actuales en condiciones normales

Las cucarachas cíborg ya entraron en una zona de desastre: ahora quieren enviarlas entre escombros, tuberías y áreas inundadas

Un elefante de 10 micrómetros acaba de cruzar una frontera que parecía imposible para la impresión 3D. Lo fabricaron dentro de una célula humana viva y esta continuó funcionando y dividiéndose

La IA está llenando internet de animales adorables y ha conseguido que incluso los videos reales parezcan falsos

Las pantallas ganan terreno durante las vacaciones: mantener algunas rutinas puede evitar que ocupen todo el verano

La IA acaba de cruzar una frontera que parecía reservada a los grandes físicos teóricos. Encontró una fórmula oculta entre miles de cálculos y construyó en 12 horas la demostración que ningún humano había logrado imaginar