Saltar al contenido
Tecnología

Prohíben el lanzamiento de modelos de IA por ser terriblemente potentes, lo que provocó temor en el gobierno

¿Quién podría haberlo previsto?
Por Mike Pearl Traducido por

Tiempo de lectura 5 minutos

Comentarios (0)

Según declaraciones que se postearon el viernes en el sitio web de Anthropic, la compañía se vio obligada a “deshabilitar abruptamente” dos de sus modelos de IA más avanzados. Fue una orden del gobierno la que impidió su lanzamiento. “Creemos que se trata de un malentendido y estamos trabajando para restablecer el acceso lo antes posible”, dice la compañía.

La acción del gobierno es una “directiva de control de exportación”, que dice que ningún extranjero puede utilizar los modelos, dentro o fuera de EE.UU. La motivación fue lo que Anthropic llama preocupación no especificada por la seguridad nacional.

Pero la preocupación por la seguridad nacional, al igual que otros temores, siempre estuvo presente ante el lanzamiento de estos modelos y por eso era previsible lo ocurrido ahora.

En lugar de lanzar al público su modelo Claude Mythos Preview, a principios de abril Anthropic convirtió la creación del modelo en algo así como una campaña de concientización sobre los ostensibles peligros de los modelos avanzados de IA.

Publicó una system card, o documento de transparencia sobre el modelo, que explicaba por qué no podía ofrecerse públicamente y detallaba capacidades riesgosas como el engaño y la capacidad de supuestamente romper la contención en un sistema limitado. Además, decía que podía ayudar en el desarrollo de armas de avanzada. La system card describía que el modelo era “capaz de efectuar una importante síntesis de dominios cruzados, importante para el desarrollo de catastróficas armas biológicas”.

Al mismo tiempo la compañía lanzó el Project Glasswing, programa en el que un limitado grupo de socios y organizaciones podrían utilizar una muestra del modelo para saber qué nuevos y terribles problemas podría causar en el mundo de la ciberseguridad. “Formamos el proyecto Glasswing debido a capacidades que observamos en el nuevo modelo de avanzada entrenado por Anthropic y que creemos podrían afectar a la ciberseguridad”, dice el posteo de blog de Anthropic respecto al proyecto Glasswing.

Y poco después, a pesar de que el tema era más propio de los nerds, Mythos Preview llegó a la prensa amarilla. Un artículo del New York Post citó al científico en computación Roman Yampolskiy que profetizaba que la IA pronto podría “desarrollar herramientas de hackeo, armas biológicas, armas químicas y armas novedosas que ni siquiera podemos imaginar”. Esa frase, “armas que ni siquiera podemos imaginar”, aparecía en el título de la nota.

Del alarmismo sobre la IA a la intervención gubernamental

Funcionarios del gobierno británico y líderes del sector financiero de Reino Unido se unieron en un plan de acción a la luz del peligro que se percibía. Según el New York Times, la “política no intervencionista” de Trump respecto de la IA cambió tras el anuncio de Mythos, y su sola existencia contribuyó a que se dictara la orden ejecutiva centrada en el riesgo que la IA representa para la seguridad. Trump firmó la orden hace más o menos una semana.

Sin embargo, la semana pasada Anthropic lanzó Claude Fable 5 y Mythos 5. La compañía describió a Fable 5 como “modelo de la clase Mythos que diseñamos para que sea seguro para el uso general” pero con capacidades que “exceden a las de cualquier modelo que hayamos lanzado antes”. El Mythos 5, mientras tanto, solo se lanzó de manera limitada como parte del proyecto Glasswing.

En Blood in the Machine, Brian Marchant lo describió así:

Tras dar lugar a un importante ciclo de noticias en tecnología con su anuncio en abril de que había desarrollado el modelo de IA Mythos, tan potente, tan peligroso que amenazaba con poner patas arriba todo el orden de la civilización y que diligentemente frenaba el lanzamiento al público para protegernos de éste, ahora la startup de IA número 1 decidió poner el Mythos a la venta después de todo.

A solo horas de que Merchant escribiera esto, Anthropic recibió la directiva de control de exportación y se bloqueó el acceso tanto del Fable 5 como del Mythos 5 aparentemente debido a preocupación por la seguridad nacional. Tal parece que solo se le ordenaba a Anthropic a impedir el acceso a usuarios que no fueran ciudadanos estadounidenses, pero es entendible que para Anthropic no fuese práctico permitir el acceso a cualquiera que estuviera en el mundo por temor a desobedecer la orden. Entre otros problemas, hay muchos ciudadanos extranjeros que trabajan en Anthropic por lo que claramente era más simple impedir el acceso a todos hasta tanto se resuelva la situación.

Es interesante que la declaración de Anthropic respecto de la directiva de control de exportación señalaba que Anthropic “había trabajado con el gobierno de EE.UU.” y el gobierno de Reino Unido, además de “varias organizaciones privadas de terceros”, en su esfuerzo por crear un conjunto satisfactorio de salvaguardas para los modelos. En su lanzamiento esas salvaguardas eran “la característica más prominente en la narrativa de los medios sobre el Fable 5. Una de las salvaguardas más robustas, diseñada para castigar calladamente a los usuarios que hicieran mal uso del modelo, se consideró maliciosa y Anthropic debió disculparse.

Pero según Anthropic el gobierno se asustó al enterarse de que había un jailbreak en Fable 5 que invalidaba todas esas salvaguardas. Un jailbreak implica efectuar cambios a la tecnología para usarla de una forma que su productor no quería que se utilizara y que podría estar prohibida.

“Entendemos que el gobierno cree que se ha enterado de un método para invalidar las salvaguardas del Fable 5, un jailbrake. Hemos revisado la demostración del uso de esta técnica específica para identificar una cantidad de vulnerabilidades menores que ya se conocían. Son vulnerabilidades que parecen relativamente simples y encontramos que otros modelos de acceso público lograron descubrirlas también, sin vulneraciones.

Anthropic señala, y con razón, que al lanzar el Fable 5 la sección de su posteo de blog sobre la seguridad del modelo dejaba en claro que había posibilidad de algunas vulneraciones. Es “probablemente imposible prevenir por completo las vulnerabilidades universales pero nuestro objetivo es hacer que cualquier posibilidad de vulneración sea tan lenta y costosa como para que podamos detectarla y prevenirla antes de que se utilice a escala”, escribió Anthropic.

Esencialmente, todavía no es posible lograr un modelo a prueba de vulnerabilidades y violaciones. Anthropic buscó entonces hacer que las violaciones sean demasiado costosas o poco funcionales, y además ha publicado que registra y guarda los datos de los usuarios de modelos de la clase Mythos mucho más que para los demás modelos.

Con todo, resulta extraño ver que ahora Anthropic minimiza la importancia de los peligros percibidos en sus modelos, diciendo que son vulnerabilidades “menores”, “ya conocidas”, y “relativamente simples”, además de señalar que “otros modelos de acceso público lograron descubrirlas sin vulneraciones”.

Cuando Anthropic hizo público los modelos de esta clase, anunció al mundo que había creado algo con potencia sin precedentes, que potencialmente podría perjudicar realmente al mundo. Y dos meses después, un modelo “de clase Mythos” estaba disponible al público como producto premium para usuarios de “Pro, Max, Team y Enterprise, sin costo extra”, pero solo por tiempo limitado. El 23 de junio, Anthropic planeaba “eliminar el Fable 5” de esos planes para que el acceso fuera pago cada vez.

Anthropic afirma que las acciones del gobierno, si se vuelven habituales, podrían “frenar todo nuevo desarrollo en todos los proveedores de modelos de avanzada”. Y tal vez sea verdad. Que un producto se prohíba cuando el lanzamiento de ese producto tiene que ver con tecnología precursora que supuestamente amerita una reevaluación global de ciberseguridad y que cause reacción ante vulnerabilidades de las salvaguardas de ese producto, no tendría que sorprendernos incluso si la reacción es desfavorable para el negocio.

Compartir esta historia

Artículos relacionados