Como señala un nuevo estudio en Nature, “hay 10 elevado a 170 posibles configuraciones en un tablero de Go, más que el número de átomos en el universo conocido”. (Imagen: DeepMind)

¿Recuerdas AlphaGo, la primera inteligencia artificial en derrotar a un gran maestro de Go? Bueno, el programa acaba de recibir una actualización importante y ahora puede aprender a dominar el juego sin intervención humana. Pero lo asombroso es esto: en un torneo de IA contra IA, esta nueva versión mejorada, llamada AlphaGo Zero, derrotó al AlphaGo normal por la friolera de 100 juegos a 0, lo que significa un gran avance en este campo. ¿Escuchas eso? Es la singularidad tecnológica cada vez más cerca.

Un nuevo estudio publicado en Nature describe cómo la inteligencia artificial que derrotó al gran maestro de Go Lee Sedol en 2016 recibió su merecido por parte de una nueva y mejorada versión de sí misma. Y no perdió por los pelos. Ni siquiera logró una sola victoria después de jugar cien veces. Increíblemente, AlphaGo Zero (AGZ) tardó solo tres días en entrenarse desde cero: adquirió literalmente miles de años de conocimiento humano jugando contra sí misma. La única información que tenía era qué hacían las posiciones de las piezas blancas y negras en el tablero. Además de diseñar estrategias completamente nuevas, el nuevo sistema es considerablemente más fuerte y agresivo que la AlphaGo original.

Lee Sedol getting crushed by AlphaGo in 2016. (Image: AP)

De vez en cuando, el campo de la IA experimenta un momento “oh dios mío”, y este parece ser uno de esos momentos. Mirando atrás, otros momentos “oh dios mío” incluyen a Garry Kasparov siendo derrotado al ajedrez por Deep Blue en 1997, Watson de IBM derrotando a dos de los mejores jugadores de Jeopardy del mundo en 2011, la ya mencionada derrota de Lee Sedol en 2016 y, más recientemente, la derrota de cuatro jugadores profesionales de No-Limit Texas Hold’em poker por parte de una IA desarrollada por científicos informáticos en la Universidad Carnegie Mellon.

Advertisement

Este último logro se puede clasificar como un momento “oh dios mío” por varias razones.

En primer lugar, la AlphaGo original tuvo la ventaja de aprender de, literalmente, miles de juegos de Go previos, incluidos los jugados por aficionados y profesionales humanos. AGZ, por otro lado, no recibió ayuda de sus creadores humanos y no tuvo acceso a absolutamente nada aparte de las reglas del juego. Usando “aprendizaje por refuerzo”, AGZ jugó contra sí misma una y otra vez, “empezando por jugar al azar y sin ninguna supervisión ni uso de datos humanos”, según el estudio de los investigadores de DeepMind, propiedad de Google. Esto permitió que el sistema mejorara y perfeccionara su cerebro digital, conocido como red neuronal, ya que aprendía continuamente de la experiencia. En resumen, AlphaGo Zero fue su propia maestra.

“Esta técnica es más poderosa que las versiones anteriores de AlphaGo porque ya no está limitada por los límites del conocimiento humano”, señala el equipo de DeepMind en un comunicado. “En cambio, es capaz de aprender tabula rasa [desde cero] del jugador más fuerte del mundo: la propia AlphaGo”.

Image: AP

Cuando juega al Go, el sistema considera los próximos movimientos más probables y luego calcula la probabilidad de ganar en base a esos movimientos. AGZ emplea unos 0,4 segundos en hacer estas dos evaluaciones. La AlphaGo original estaba equipada con un par de redes neuronales para realizar evaluaciones similares, pero para AGZ, los desarrolladores de Deepmind combinaron los dos tipos de valoraciones en una, lo que permitió que el sistema aprendiera de manera más eficiente. Además, el nuevo sistema funciona con cuatro unidades de procesamiento de tensor (TPUS), chips especializados en el entrenamiento de redes neuronales. La vieja AlphaGo necesitaba 48 TPUs.

Advertisement

Después de solo tres días de entrenamiento jugando consigo misma y un total de 4,9 millones de partidas, AGZ adquirió la experiencia necesaria para derrotar a AlphaGo (en comparación, la AlphaGo original necesitó 30 millones de juegos para inspirarse). Después de 40 días de autoformación, AGZ derrotó a otra versión más sofisticada de AlphaGo llamada AlphaGo “Master”, que había derrotado a los mejores jugadores de Go y en concreto al mejor jugador del mundo, Ke Jie. A principios de este año, tanto la AlphaGo original como la AlphaGo Master ganaron 60 juegos combinados contra los mejores profesionales. Ahora parece que AGZ ha hecho obsoletas estas versiones anteriores.

Este es un logro importante para la IA y en particular el subcampo del aprendizaje por refuerzo. Al enseñarse a sí mismo, el sistema alcanzó y superó en un orden de magnitud el conocimiento humano en solo unos pocos días, al tiempo que también desarrolló estrategias no convencionales y nuevos movimientos creativos. Para los jugadores de Go, el avance es tan aleccionador como emocionante; están aprendiendo cosas de la AI que nunca habrían aprendido por su cuenta, o que necesitarían un tiempo excesivo para descubrir.

“Las partidas de [AlphaGo Zero] contra AlphaGo Master seguramente contengan joyas, especialmente porque sus victorias parecen ser sin esfuerzo”, escribieron Andy Okun y Andrew Jackson, miembros de la American Go Association, en un artículo de Nature News and Views. “En cada etapa del juego, parece ganar un poco aquí y perder un poco allí, pero de alguna manera termina un poco por delante, como por arte de magia... El día que los humanos puedan mantener una conversación significativa con una IA siempre ha parecido lejano y propio de la ciencia ficción, pero para los jugadores de Go ese día ya está aquí”.

Sin lugar a dudas, AGZ representa un avance disruptivo en el mundo del Go, pero ¿qué pasa con su impacto potencial en el resto del mundo? Según Nick Hynes, un estudiante de posgrado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, pasará un tiempo antes de que una herramienta especializada como esta tenga un impacto en nuestra vida cotidiana.

Advertisement

“Hasta ahora, el algoritmo descrito solo funciona para problemas en los que hay un número contable de acciones que se pueden tomar, por lo que necesitaría una modificación antes de poder usarse para problemas de control continuo como la locomoción [por ejemplo]”, explicó Hynes a Gizmodo. “Además, requiere que tengas un buen modelo del entorno. En este caso, literalmente conoce todas las reglas. Sería como si tuvieras un robot para el que puedes predecir exactamente los resultados de las acciones, lo que es imposible para sistemas físicos reales e imperfectos”.

La parte buena, añade, es que hay varias otras líneas de investigación sobre la IA que abordan estos dos problemas (por ejemplo, el aprendizaje automático, los algoritmos evolutivos, etc.), por lo que en realidad es solo cuestión de integración. “La verdadera clave aquí es la técnica”, dice Hynes.

“Como era de esperar (y desear), nos estamos alejando del patrón clásico de obtener un grupo de datos etiquetados por humanos y entrenar un modelo para imitarlo”, dijo. “Lo que estamos viendo aquí es un modelo libre de prejuicios y asunciones humanas: puede aprender lo que determina que es óptimo, lo que puede tener un matiz distinto a nuestras propias concepciones de lo mismo. Es como una civilización alienígena inventando su propia matemática que le permite hacer cosas como viajar en el tiempo. Aunque todavía estamos lejos de ‘La Singularidad’, definitivamente vamos en esa dirección”.

Noam Brown, un informático de la Universidad Carnegie Mellon que ayudó a desarrollar la primera IA que derrotó a los mejores jugadores de póker, dice que los investigadores de DeepMind han logrado un resultado impresionante y que este podría conducir a cosas aún más grandes y mejores para la IA.

Advertisement

“Mientras que el AlphaGo original logró derrotar a los mejores humanos, lo hizo en parte confiando en el conocimiento de humanos expertos en el juego y en los datos de entrenamiento humano”, explicó Brown a Gizmodo. “Eso llevó a preguntas sobre si las técnicas podrían extenderse más allá del Go. AlphaGo Zero logra un rendimiento aún mejor sin utilizar ningún conocimiento humano experto. Parece probable que el mismo enfoque podría extenderse a todos los juegos de información perfecta [tales como el ajedrez y las damas]. Este es un paso importante hacia el desarrollo de una IA de propósito general”.

Como admiten tanto Hynes como Brown, este último avance no significa que la singularidad tecnológica —que es la hipótesis de que en un futuro la inteligencia artificial será capaz de crear robots mejores que sí mismas- sea inminente. Pero deberíamos pararnos a pensar. Una vez que enseñamos a un sistema las reglas de un juego o las limitaciones de un problema del mundo real, el poder del aprendizaje por refuerzo permite simplemente presionar el botón de inicio y dejar que el sistema haga el resto. Luego descubrirá las mejores maneras de tener éxito en la tarea, diseñando soluciones y estrategias que están más allá de las capacidades humanas, y posiblemente incluso de la comprensión humana.

Como decíamos más arriba, AGZ y el juego del Go representan una imagen simplificada, limitada y altamente predecible del mundo, pero en el futuro, a la AI se le encargarán desafíos más complejos. Finalmente, los sistemas de autoaprendizaje se utilizarán para resolver problemas más apremiantes, como el plegamiento de proteínas para crear nuevos medicamentos y biotecnologías, descubrir formas de reducir el consumo de energía o diseñar nuevos materiales. Un sistema de autoaprendizaje muy generalizado también podría encargarse de mejorarse a sí mismo, lo que nos llevará a una inteligencia general artificial (es decir, a una inteligencia muy similar a la humana) e incluso a una superinteligencia artificial.

Como concluyen los investigadores de DeepMind en su estudio, “Nuestros resultados demuestran de forma integral que un enfoque de aprendizaje por refuerzo puro es completamente factible, incluso en los dominios más desafiantes: es posible entrenar a nivel sobrehumano sin ejemplos humanos ni orientación, sin conocimiento del dominio más allá de las reglas básicas”.

Advertisement

Y de hecho, ahora que los jugadores humanos ya no son dominantes en los juegos como el ajedrez y el Go, puede decirse que ya hemos entrado en la era de la superinteligencia. Este último avance es el más mínimo indicio de lo que está por venir.

[Nature]