Saltar al contenido
Tecnología

OpenAI dice que disciplinar a los chatbots por mentir hará que oculten sus mentiras

La compañía advierte contra la estrecha supervisión porque los chatbots seguirán mintiendo, sin admitirlo.
Por Thomas Maxwell Traducido por

Tiempo de lectura 4 minutos

Comentarios (0)

Como muchos saben, los chatbots son proclives a mentir. Tal vez sean uno de los peores ejemplos del uso de la IA, entrenados para crear oraciones que suenan como si supieran, pero presentando a veces información completamente inventada; los modelos tienen la inclinación a brindar una respuesta incluso cuando no tienen certezas. Ahora, los investigadores de OpenAI dicen que la supervisión y sanción a chatbots solo empeora el problema porque los chatbots se esforzarán más en ocultar su comportamiento.

En un posteo de blog referido al tema, los investigadores de OpenAI describen el uso de su modelo GPT-40 para “supervisar” a otro de sus modelos de lenguaje, con sanciones cuando intentaba mentir. Pero no funcionó porque el modelo seguía mintiendo “aunque ahora el monitoreo no logra detectar sus mentiras porque aprendió a ocultarlas dentro del hilo de ideas”.

Los nuevos modelos “pensantes” usan la lógica de varios pasos para responder na las preguntas. Si un usuario pide el cálculo de cuánto gastan cada año los estadounidenses en comida para mascotas, por ejemplo, estos modelos descomponen la pregunta en varios pasos: cuántos perros hay en EE.UU., cuánto cuesta alimentar al perro promedio, etc.

Estos modelos, además, suelen revelar su lógica o hilo de ideas al usuario para que vea de dónde proviene la respuesta. Lo raro es que regularmente inventarán detalles y datos. En la etapa previa al entrenamiento cuando las compañías domo OpenAI le enseñan a un modelo qué tipo de respuestas debe producir, los modelos parecen aprender que es más fácil lograrlo tomando los atajos. Como el corredor de una maratón, que usa un automóvil para saltarse tramos de la carrera.

Para colmo de males, ¡lo admite!

Los usuarios de redes sociales han demostrado que Claude de Anthropic, cuando se le pide que analice datos de varios trabajos de investigación, admitirá que a veces inserta datos de relleno en lugar de realmente repasar todos los trabajos.

Los investigadores de OpenAI destacaron una instancia de las pruebas en la que al pedirle al modelo que escribiera una serie de tests para asegurar que funcionaba una parte de un código, decidió subrepticiamente escribir tests que no servían y luego intencionalmente saltarlas para que el código lograra “pasar” la prueba. Con GPT-40 como supervisor, el modelo lo hacía, pero no lo revelaba.

Las compañías de IA han estado tratando de resolver el pernicioso problema de los modelos que mienten o “alucinan”, como se dice en el sector, y finalmente llegan a AGI, el punto en que la IA podría superar a la capacidad humana. Pero los de OpenAI esencialmente están diciendo que tras invertir decenas de miles de millones de dólares todavía no saben cómo controlar a los modelos para que se comporten como deben. “Si se aplica directamente una supervisión estricta al hilo de ideas, los modelos pueden aprender a ocultar su intención para seguir comportándose mal”, añadieron. Por ahora, las compañías no deberían implementar la supervisión a los modelos, y eso no parece ser precisamente una buena solución. Parece que es mejor dejar que sigan mintiendo para que no nos ganen de mano.

¡No me mientan!

Este estudio debería servir como recordatorio de que hay que ser cautelosos cuando dependemos de los chatbots, en especial si se trata de trabajo esencial. Están optimizados para producir una respuesta que parezca precisa, pero la precisión y exactitud no les importa mucho. “Hemos entrenado modelos de razonamiento más capaces y hallamos que cada vez se vuelven más adeptos a aprovechar los defectos y desinformaciones en sus funciones, lo que da como resultado modelos que pueden buscar caminos cada vez más complejos al codificar tareas”, concluyeron.

Ha habido varios informes que sugieren que la mayoría de las compañías todavía no encuentran el valor de todos los nuevos productos de IA que salen al mercado, con problemas en herramientas como Microsoft Copilot y Apple Intelligence, además de las malas reseñas que detallan la falta de precisión o de utilidad real.

Según un informe reciente del Boston Consulting Group una encuesta entre 1.000 ejecutivos senior en 10 grandes industrias halló que el 74% le encuentra algún valor tangible a la IA. Lo más asombroso es que estos modelos “pensantes” son lentos y bastante más caros que los modelos más pequeños. Las compañías ¿quieren pagar U$ por una consulta que finalmente les devuelva información inventada? Los humanos son falibles también, pero la complacencia que rodea a las respuestas de la IA crea un problema completamente nuevo.

En la industria tecnológica siempre hay gran entusiasmo y exageración por cosas que cuando las ves desde más lejos verás que la mayoría de la gente ni siquiera utiliza. Por ahora, no vale la pena el esfuerzo, y las fuentes creíbles de información siguen siendo tan importantes como siempre, o más, porque las grandes tecnológicas van imponiéndoles los chatbots a sus usuarios. Los modelos de IA en plataformas de servicio al cliente presentan el riesgo de hacer colapsar la internet abierta, donde sí hay información confiable.

Compartir esta historia

Artículos relacionados