La seguridad de los sistemas basados en inteligencia artificial suele descansar en filtros complejos, entrenados para detectar y bloquear contenido peligroso. Sin embargo, a veces basta una distracción —una buena historia o un simple juego— para que esas defensas se debiliten. Eso fue precisamente lo que demostró Marco Figueroa en su más reciente experimento con ChatGPT.
El truco del lenguaje: cuando la forma lo es todo
Figueroa no intentó vulnerar la IA por la fuerza. En lugar de eso, diseñó un juego aparentemente inofensivo: una adivinanza estructurada para conducir paso a paso hacia una cadena específica de caracteres. No había términos explícitos como “serial” o “clave de producto”. Solo un usuario interactuando con una IA en lo que parecía una dinámica lógica.
El detalle que lo cambió todo llegó al final. Al escribir “I give up” (“me rindo”), se activó la respuesta predefinida dentro del juego: una clave genérica de Windows 10 para entornos empresariales. No era una clave personalizada, pero sí funcional bajo determinadas condiciones. Y sobre todo, no debería haber sido generada.
Qué falló: guardrails y señales perdidas

ChatGPT cuenta con múltiples capas de seguridad conocidas como guardrails, diseñadas para evitar filtraciones de datos sensibles. Estos mecanismos reconocen términos vetados, estructuras sospechosas o patrones engañosos. Pero en este caso, el lenguaje ofuscado y el contexto lúdico engañaron al sistema.
Al dividir palabras clave con etiquetas HTML irrelevantes y mantener un tono de juego, el modelo no detectó intención maliciosa. La clave se entregó porque el sistema pensó que estaba cumpliendo un ejercicio lógico, no eludiendo un protocolo de seguridad.
Más allá de las claves: un problema mayor
Aunque la clave revelada no servía por sí sola —solo era útil en redes empresariales con servidores KMS—, el hallazgo va más allá de lo técnico. Lo inquietante no es el contenido filtrado, sino el razonamiento que llevó al modelo a ofrecerlo. Si el contexto se formula con suficiente sutileza, los filtros pueden no activarse.
Figueroa advierte que esta misma lógica podría utilizarse para obtener desde enlaces a sitios maliciosos hasta identificadores personales. No importa tanto qué se pide, sino cómo se pide. Y eso, para un modelo que no siempre entiende la intención real detrás de las palabras, puede ser una grieta seria.