OpenAI dice que disciplinar a los chatbots por mentir hará que oculten sus mentiras

Como muchos saben, los chatbots son proclives a mentir. Tal vez sean uno de los peores ejemplos del uso de la IA, entrenados para crear oraciones que suenan como si supieran, pero presentando a veces información completamente inventada; los modelos tienen la inclinación a brindar una respuesta incluso cuando no tienen certezas. Ahora, los investigadores de OpenAI dicen que la supervisión y sanción a chatbots solo empeora el problema porque los chatbots se esforzarán más en ocultar su comportamiento.

En un posteo de blog referido al tema, los investigadores de OpenAI describen el uso de su modelo GPT-40 para “supervisar” a otro de sus modelos de lenguaje, con sanciones cuando intentaba mentir. Pero no funcionó porque el modelo seguía mintiendo “aunque ahora el monitoreo no logra detectar sus mentiras porque aprendió a ocultarlas dentro del hilo de ideas”.

Los nuevos modelos “pensantes” usan la lógica de varios pasos para responder na las preguntas. Si un usuario pide el cálculo de cuánto gastan cada año los estadounidenses en comida para mascotas, por ejemplo, estos modelos descomponen la pregunta en varios pasos: cuántos perros hay en EE.UU., cuánto cuesta alimentar al perro promedio, etc.

Estos modelos, además, suelen revelar su lógica o hilo de ideas al usuario para que vea de dónde proviene la respuesta. Lo raro es que regularmente inventarán detalles y datos. En la etapa previa al entrenamiento cuando las compañías domo OpenAI le enseñan a un modelo qué tipo de respuestas debe producir, los modelos parecen aprender que es más fácil lograrlo tomando los atajos. Como el corredor de una maratón, que usa un automóvil para saltarse tramos de la carrera.

almost lost $100 million because @AnthropicAI's Claude snuck in 'generate random data' as a fallback into my market maker code without telling me pic.twitter.com/J3MLgsl5Lq

— Martin Shkreli (@MartinShkreli) March 5, 2025

Para colmo de males, ¡lo admite!

Los usuarios de redes sociales han demostrado que Claude de Anthropic, cuando se le pide que analice datos de varios trabajos de investigación, admitirá que a veces inserta datos de relleno en lugar de realmente repasar todos los trabajos.

Los investigadores de OpenAI destacaron una instancia de las pruebas en la que al pedirle al modelo que escribiera una serie de tests para asegurar que funcionaba una parte de un código, decidió subrepticiamente escribir tests que no servían y luego intencionalmente saltarlas para que el código lograra “pasar” la prueba. Con GPT-40 como supervisor, el modelo lo hacía, pero no lo revelaba.

Las compañías de IA han estado tratando de resolver el pernicioso problema de los modelos que mienten o “alucinan”, como se dice en el sector, y finalmente llegan a AGI, el punto en que la IA podría superar a la capacidad humana. Pero los de OpenAI esencialmente están diciendo que tras invertir decenas de miles de millones de dólares todavía no saben cómo controlar a los modelos para que se comporten como deben. “Si se aplica directamente una supervisión estricta al hilo de ideas, los modelos pueden aprender a ocultar su intención para seguir comportándose mal”, añadieron. Por ahora, las compañías no deberían implementar la supervisión a los modelos, y eso no parece ser precisamente una buena solución. Parece que es mejor dejar que sigan mintiendo para que no nos ganen de mano.

tfw claude code spent 739 seconds "manifesting," failed to make the change you asked for, broke 3 other things that used to work fine, and then charged you $11.14 pic.twitter.com/Ap2JLQ0uI8

— adam 🇺🇸 (@personofswag) March 19, 2025

¡No me mientan!

Este estudio debería servir como recordatorio de que hay que ser cautelosos cuando dependemos de los chatbots, en especial si se trata de trabajo esencial. Están optimizados para producir una respuesta que parezca precisa, pero la precisión y exactitud no les importa mucho. “Hemos entrenado modelos de razonamiento más capaces y hallamos que cada vez se vuelven más adeptos a aprovechar los defectos y desinformaciones en sus funciones, lo que da como resultado modelos que pueden buscar caminos cada vez más complejos al codificar tareas”, concluyeron.

Ha habido varios informes que sugieren que la mayoría de las compañías todavía no encuentran el valor de todos los nuevos productos de IA que salen al mercado, con problemas en herramientas como Microsoft Copilot y Apple Intelligence, además de las malas reseñas que detallan la falta de precisión o de utilidad real.

Según un informe reciente del Boston Consulting Group una encuesta entre 1.000 ejecutivos senior en 10 grandes industrias halló que el 74% le encuentra algún valor tangible a la IA. Lo más asombroso es que estos modelos “pensantes” son lentos y bastante más caros que los modelos más pequeños. Las compañías ¿quieren pagar U$ por una consulta que finalmente les devuelva información inventada? Los humanos son falibles también, pero la complacencia que rodea a las respuestas de la IA crea un problema completamente nuevo.

En la industria tecnológica siempre hay gran entusiasmo y exageración por cosas que cuando las ves desde más lejos verás que la mayoría de la gente ni siquiera utiliza. Por ahora, no vale la pena el esfuerzo, y las fuentes creíbles de información siguen siendo tan importantes como siempre, o más, porque las grandes tecnológicas van imponiéndoles los chatbots a sus usuarios. Los modelos de IA en plataformas de servicio al cliente presentan el riesgo de hacer colapsar la internet abierta, donde sí hay información confiable.

OpenAI dice que disciplinar a los chatbots por mentir hará que oculten sus mentiras

Para colmo de males, ¡lo admite!

¡No me mientan!

Lo último

Matar arañas nunca fue tan absurdo: el caos de KILL IT WITH FIRE! 2 se vuelve portátil

El entorno en el que vivimos reconfigura el cerebro a nivel molecular. Por qué la plasticidad cerebral no responde igual en todas las neuronas

Ranas, nieve y caos: el indie que convierte cavar en sobrevivir

Japón ha enviado una “caja de madera” al espacio para resolver un problema que va a peor. La apuesta por materiales biodegradables contra la basura orbital

El remake imposible: Square Enix explica por qué Final Fantasy VII nunca pudo ser un solo juego

Un poblado neolítico sumergido devuelve 19 arcos intactos del fondo del lago. Por qué este hallazgo cambia la imagen de los primeros agricultores del Mediterráneo

En lo remoto de la selva tropical de Brasil hay una planta que parece muy efectiva contra el COVID-19

Un Batman imposible de tocar: la edición de lujo de The Killing Joke que rompe cualquier lógica

Artículos relacionados

OpenAI dice que disciplinar a los chatbots por mentir hará que oculten sus mentiras

Para colmo de males, ¡lo admite!

¡No me mientan!

Matar arañas nunca fue tan absurdo: el caos de KILL IT WITH FIRE! 2 se vuelve portátil

El entorno en el que vivimos reconfigura el cerebro a nivel molecular. Por qué la plasticidad cerebral no responde igual en todas las neuronas

Ranas, nieve y caos: el indie que convierte cavar en sobrevivir

Japón ha enviado una “caja de madera” al espacio para resolver un problema que va a peor. La apuesta por materiales biodegradables contra la basura orbital

El remake imposible: Square Enix explica por qué Final Fantasy VII nunca pudo ser un solo juego

Un poblado neolítico sumergido devuelve 19 arcos intactos del fondo del lago. Por qué este hallazgo cambia la imagen de los primeros agricultores del Mediterráneo

En lo remoto de la selva tropical de Brasil hay una planta que parece muy efectiva contra el COVID-19

Un Batman imposible de tocar: la edición de lujo de The Killing Joke que rompe cualquier lógica

Artículos relacionados

Japón ha enviado una “caja de madera” al espacio para resolver un problema que va a peor. La apuesta por materiales biodegradables contra la basura orbital

Estados Unidos ya prueba vehículos capaces de volar a más de Mach 20 y superar los 24.000 km/h en la atmósfera. Este salto hipersónico no es un experimento aislado y redefine la nueva carrera armamentística

La relatividad ya permite imaginar viajes más rápidos que la luz sin romper las leyes del universo. Lo que no tenemos es la tecnología (ni la energía) para hacerlos realidad

Entrenar una IA consume mucho, pero Sam Altman cree que el problema está mal planteado. Esta pregunta incómoda todavía sigue sin respuesta

SpaceX parecía tener prácticamente asegurada la carrera para llevar astronautas de regreso a la Luna. Pero Blue Origin acaba de demostrar que todavía puede cambiar completamente el programa Artemis

La limpieza orbital está a punto de convertirse en un servicio regular y operativo por primera vez en la historia. Un “camión de basura espacial” empezará a retirar desechos de la órbita terrestre en 2027