"¿Cuáles son tus películas favoritas de ciencia-ficción?" "Me gustan Star Wars y Matrix", aparece la respuesta tecleada. Estoy tratando de averiguar si hablo con una "persona oculta" en la sala de al lado o con una máquina ubicada en algún lugar del ciberespacio. "¿Estás de acuerdo en que las precuelas fueron malísimas?", prosigo. "¡Desde luego! Deberían disparar a Lucas".

Esa última respuesta lo dice todo. Solo un fan de carne y hueso de Star Wars podría estar tan cabreado por La Amenaza Fantasma.

Advertisement

Así fue uno de los intercambios más fáciles de analizar que tuve como el juez J-18 durante el pasado "maratón de test de Turing" en Bletchley Park, Inglaterra. El test está pensado para distinguir humanos de máquinas mediante rigurosas preguntas realizadas por jueces. Lo diseñó hace 60 años Alan Turing, el abuelo de los ordenadores, cuyo trabajo en Hut #8 en Bletchley Park jugó un papel fundamental en el esfuerzo de los Aliados para descifrar los códigos de los alemanes durante la Segunda Guerra Mundial.

El Maratón del pasado fin de semana, junto a eventos similares en todo el mundo, se organizó en celebración del centenario de Turing. Pero, ¿cómo es ser juez en un test de Turing? Ansioso por conocerlo, me apunté con meses de antelación al evento de Bletchley Park.

Advertisement

La idea es similar a interrogar a un espía: si haces las suficientes preguntas, al final el sospechoso se delata. Tal y como Turing pensó el test, tendrías a una persona oculta tras un pantalla opaca y a un ordenador oculto tras otro panel. Un juez se sentaría frente a ambos sin posibilidad de saber quién o qué cosa se esconde detrás de cada pantalla. El juez puede preguntar a ambas entidades; ellas responden a través de un chat de texto. Si la máquina es buena produciendo respuestas parecidas a las de un humano de forma que el juez no pueda distinguir una de otra en base a una conversación de cinco minutos, la máquina superaría el test de Turing.

Turing no esperaba que un ordenador engañara a los jueces todo el tiempo, pero especulaba que para el año 2000 "un interrogador medio no tendría más del 70% de probabilidad de distinguir uno de otro". Es decir, los programas informáticos serían capaces de engañar a los jueces en el 30% de los casos. Doce años después, el test de este año se proponía comprobar si por fin habíamos alcanzando esa barrera.*

El test se llevó a cabo en la antigua sala de juegos de la mansión, donde me senté junto a otros jueces de la Sesión 1, cada uno situados frente a un PC normal y corriente. Huma Shah, el organizador del evento, explicó las reglas: habría dos tipos de tests. En una versión, el juez charlaría en un chat con una entidad (persona o máquina) durante cinco minutos. En la otra versión, habría una pantalla partida y los jueces conversarían al mismo tiempo con dos entidades durante 5 minutos, intentando averiguar si una entidad (o las dos) son máquinas.

En varias ocasiones, los ordenadores se delataron casi desde el principio. Si mi interlocutor no podía responder a una pregunta sencilla, o cambiaba de tema de forma brusca sin razón aparente, era señal casi segura de estar ante una máquina.

En el otro extremo, teníamos a mi casi-seguro humano fan de Star Wars y de los Beatles ("la mejor banda de la historia", dijo) a quien, cuando le pedí escoger entre los Rolling Stones y The Who, respondió "desde luego los Stones - los Who al final se hicieron demasiado grandilocuentes". Aunque no estaba de acuerdo con el razonamiento - en mi opinión, los Who hicieron gran música justo hasta su separación a comienzos de los 80 - la respuesta parecía demasiado... bueno, demasiado humana para ser escrita por una máquina.

Advertisement

Otras respuestas, sin embargo, fueron mucho más ambiguas. Cuando dije que era de Canadá, uno respondió que había oído "grandes cosas" sobre Canadá, excepto que "Quebec era muy francesa". ¿Era eso algo que un ordenador diría después de pasar unos milisegundos escaneando la Wikipedia? ¿O se trataba de un humano con una vaga memoria de lo que una vez su profesor de la escuela le dijo sobre Canadá, tal vez influenciado por algún prejuicio anti-francés? ¿Era simplemente una persona que se había cansado de estar conversando con extraños por chat durante horas?

Cuando diseñó el test, Turing dio por hecho que el buen conocimiento del lenguaje generalmente iba acompañado de la inteligencia. Desde luego, la habilidad lingüística supone algo más que unir palabras en una frase. Mantener una conversación lógica depende de un conjunto de habilidades cognitivas, entre las que están incluso tratar de adivinar lo que está pensando la otra persona. Los niños adquieren estas capacidades cognitivas como parte de su desarrollo diario. Dotar de estas capacidades a una máquina es un reto hercúleo, y los programadores detrás de los chatbots del pasado fin de semana tienen mucho mérito por lograr que su creación lo hiciera tan bien. El mejor programa, Eugene Goostman, un chatbot con una personalidad de un niño de 13 años, estuvo a punto de pasar el test, engañando casi al 30% de los jueces, la marca sugerida por Turing en su informe de 1950.

El maratón del test de Turing demuestra cuán complejo es para una máquina mantener una conversación real. Como Mark Twain hubiera dicho, puedes engañar a algunos de los jueces algunas veces, pero no mucho más. Al menos, no de momento.

Advertisement

(Actualización: este artículo se escribió en 2012 - ver nota debajo*. Ayer, precisamente el chatbot Eugene Goostman superó por primera vez en la historia el test de Turing).

Foto de cierre: Dan Falk

*Este artículo se publicó inicialmente en New Scientist en Junio de 2012 y luego en Gizmodo, con permiso expreso de New Scientist. Lo hemos republicado hoy en Gizmodo en Español a raíz de la noticia de ayer, sobre un ordenador superando por primera vez el test de Turing. Justo el programa al que hace referencia en el texto Dan Falk, el chatbot Eugene Goostman, es el que ahora ha logrado superar el test de Turing.

***

Psst! también puedes seguirnos en Twitter, Facebook o Google+ :)