Como se√Īala un nuevo estudio en Nature, ‚Äúhay 10 elevado a 170 posibles configuraciones en un tablero de Go, m√°s que el n√ļmero de √°tomos en el universo conocido‚ÄĚ. (Imagen: DeepMind)

¬ŅRecuerdas AlphaGo, la primera inteligencia artificial en derrotar a un gran maestro de Go? Bueno, el programa acaba de recibir una actualizaci√≥n importante y ahora puede aprender a dominar el juego sin intervenci√≥n humana. Pero lo asombroso es esto: en un torneo de IA contra IA, esta nueva versi√≥n mejorada, llamada AlphaGo Zero, derrot√≥ al AlphaGo normal por la friolera de 100 juegos a 0, lo que significa un gran avance en este campo. ¬ŅEscuchas eso? Es la singularidad tecnol√≥gica cada vez m√°s cerca.

Un nuevo estudio publicado en Nature describe c√≥mo la inteligencia artificial que derrot√≥ al gran maestro de Go Lee Sedol en 2016 recibi√≥ su merecido por parte de una nueva y mejorada versi√≥n de s√≠ misma. Y no perdi√≥ por los pelos. Ni siquiera logr√≥ una sola victoria despu√©s de jugar cien veces. Incre√≠blemente, AlphaGo Zero (AGZ) tard√≥ solo tres d√≠as en entrenarse desde cero: adquiri√≥ literalmente miles de a√Īos de conocimiento humano jugando contra s√≠ misma. La √ļnica informaci√≥n que ten√≠a era qu√© hac√≠an las posiciones de las piezas blancas y negras en el tablero. Adem√°s de dise√Īar estrategias completamente nuevas, el nuevo sistema es considerablemente m√°s fuerte y agresivo que la AlphaGo original.

Advertisement

Lee Sedol getting crushed by AlphaGo in 2016. (Image: AP)

De vez en cuando, el campo de la IA experimenta un momento ‚Äúoh dios m√≠o‚ÄĚ, y este parece ser uno de esos momentos. Mirando atr√°s, otros momentos ‚Äúoh dios m√≠o‚ÄĚ incluyen a Garry Kasparov siendo derrotado al ajedrez por Deep Blue en 1997, Watson de IBM derrotando a dos de los mejores jugadores de Jeopardy del mundo en 2011, la ya mencionada derrota de Lee Sedol en 2016 y, m√°s recientemente, la derrota de cuatro jugadores profesionales de No-Limit Texas Hold‚Äôem poker por parte de una IA desarrollada por cient√≠ficos inform√°ticos en la Universidad Carnegie Mellon.

Este √ļltimo logro se puede clasificar como un momento ‚Äúoh dios m√≠o‚ÄĚ por varias razones.

Advertisement

En primer lugar, la AlphaGo original tuvo la ventaja de aprender de, literalmente, miles de juegos de Go previos, incluidos los jugados por aficionados y profesionales humanos. AGZ, por otro lado, no recibi√≥ ayuda de sus creadores humanos y no tuvo acceso a absolutamente nada aparte de las reglas del juego. Usando ‚Äúaprendizaje por refuerzo‚ÄĚ, AGZ jug√≥ contra s√≠ misma una y otra vez, ‚Äúempezando por jugar al azar y sin ninguna supervisi√≥n ni uso de datos humanos‚ÄĚ, seg√ļn el estudio de los investigadores de DeepMind, propiedad de Google. Esto permiti√≥ que el sistema mejorara y perfeccionara su cerebro digital, conocido como red neuronal, ya que aprend√≠a continuamente de la experiencia. En resumen, AlphaGo Zero fue su propia maestra.

‚ÄúEsta t√©cnica es m√°s poderosa que las versiones anteriores de AlphaGo porque ya no est√° limitada por los l√≠mites del conocimiento humano‚ÄĚ, se√Īala el equipo de DeepMind en un comunicado. ‚ÄúEn cambio, es capaz de aprender tabula rasa [desde cero] del jugador m√°s fuerte del mundo: la propia AlphaGo‚ÄĚ.

Image: AP

Advertisement

Cuando juega al Go, el sistema considera los próximos movimientos más probables y luego calcula la probabilidad de ganar en base a esos movimientos. AGZ emplea unos 0,4 segundos en hacer estas dos evaluaciones. La AlphaGo original estaba equipada con un par de redes neuronales para realizar evaluaciones similares, pero para AGZ, los desarrolladores de Deepmind combinaron los dos tipos de valoraciones en una, lo que permitió que el sistema aprendiera de manera más eficiente. Además, el nuevo sistema funciona con cuatro unidades de procesamiento de tensor (TPUS), chips especializados en el entrenamiento de redes neuronales. La vieja AlphaGo necesitaba 48 TPUs.

Despu√©s de solo tres d√≠as de entrenamiento jugando consigo misma y un total de 4,9 millones de partidas, AGZ adquiri√≥ la experiencia necesaria para derrotar a AlphaGo (en comparaci√≥n, la AlphaGo original necesit√≥ 30 millones de juegos para inspirarse). Despu√©s de 40 d√≠as de autoformaci√≥n, AGZ derrot√≥ a otra versi√≥n m√°s sofisticada de AlphaGo llamada AlphaGo ‚ÄúMaster‚ÄĚ, que hab√≠a derrotado a los mejores jugadores de Go y en concreto al mejor jugador del mundo, Ke Jie. A principios de este a√Īo, tanto la AlphaGo original como la AlphaGo Master ganaron 60 juegos combinados contra los mejores profesionales. Ahora parece que AGZ ha hecho obsoletas estas versiones anteriores.

Advertisement

Este es un logro importante para la IA y en particular el subcampo del aprendizaje por refuerzo. Al ense√Īarse a s√≠ mismo, el sistema alcanz√≥ y super√≥ en un orden de magnitud el conocimiento humano en solo unos pocos d√≠as, al tiempo que tambi√©n desarroll√≥ estrategias no convencionales y nuevos movimientos creativos. Para los jugadores de Go, el avance es tan aleccionador como emocionante; est√°n aprendiendo cosas de la AI que nunca habr√≠an aprendido por su cuenta, o que necesitar√≠an un tiempo excesivo para descubrir.

‚ÄúLas partidas de [AlphaGo Zero] contra AlphaGo Master seguramente contengan joyas, especialmente porque sus victorias parecen ser sin esfuerzo‚ÄĚ, escribieron Andy Okun y Andrew Jackson, miembros de la American Go Association, en un art√≠culo de Nature News and Views. ‚ÄúEn cada etapa del juego, parece ganar un poco aqu√≠ y perder un poco all√≠, pero de alguna manera termina un poco por delante, como por arte de magia... El d√≠a que los humanos puedan mantener una conversaci√≥n significativa con una IA siempre ha parecido lejano y propio de la ciencia ficci√≥n, pero para los jugadores de Go ese d√≠a ya est√° aqu√≠‚ÄĚ.

Sin lugar a dudas, AGZ representa un avance disruptivo en el mundo del Go, pero ¬Ņqu√© pasa con su impacto potencial en el resto del mundo? Seg√ļn Nick Hynes, un estudiante de posgrado del Laboratorio de Ciencias de la Computaci√≥n e Inteligencia Artificial (CSAIL) del MIT, pasar√° un tiempo antes de que una herramienta especializada como esta tenga un impacto en nuestra vida cotidiana.

Advertisement

‚ÄúHasta ahora, el algoritmo descrito solo funciona para problemas en los que hay un n√ļmero contable de acciones que se pueden tomar, por lo que necesitar√≠a una modificaci√≥n antes de poder usarse para problemas de control continuo como la locomoci√≥n [por ejemplo]‚ÄĚ, explic√≥ Hynes a Gizmodo. ‚ÄúAdem√°s, requiere que tengas un buen modelo del entorno. En este caso, literalmente conoce todas las reglas. Ser√≠a como si tuvieras un robot para el que puedes predecir exactamente los resultados de las acciones, lo que es imposible para sistemas f√≠sicos reales e imperfectos‚ÄĚ.

La parte buena, a√Īade, es que hay varias otras l√≠neas de investigaci√≥n sobre la IA que abordan estos dos problemas (por ejemplo, el aprendizaje autom√°tico, los algoritmos evolutivos, etc.), por lo que en realidad es solo cuesti√≥n de integraci√≥n. ‚ÄúLa verdadera clave aqu√≠ es la t√©cnica‚ÄĚ, dice Hynes.

Advertisement

‚ÄúComo era de esperar (y desear), nos estamos alejando del patr√≥n cl√°sico de obtener un grupo de datos etiquetados por humanos y entrenar un modelo para imitarlo‚ÄĚ, dijo. ‚ÄúLo que estamos viendo aqu√≠ es un modelo libre de prejuicios y asunciones humanas: puede aprender lo que determina que es √≥ptimo, lo que puede tener un matiz distinto a nuestras propias concepciones de lo mismo. Es como una civilizaci√≥n alien√≠gena inventando su propia matem√°tica que le permite hacer cosas como viajar en el tiempo. Aunque todav√≠a estamos lejos de ‚ÄėLa Singularidad‚Äô, definitivamente vamos en esa direcci√≥n‚ÄĚ.

Noam Brown, un inform√°tico de la Universidad Carnegie Mellon que ayud√≥ a desarrollar la primera IA que derrot√≥ a los mejores jugadores de p√≥ker, dice que los investigadores de DeepMind han logrado un resultado impresionante y que este podr√≠a conducir a cosas a√ļn m√°s grandes y mejores para la IA.

‚ÄúMientras que el AlphaGo original logr√≥ derrotar a los mejores humanos, lo hizo en parte confiando en el conocimiento de humanos expertos en el juego y en los datos de entrenamiento humano‚ÄĚ, explic√≥ Brown a Gizmodo. ‚ÄúEso llev√≥ a preguntas sobre si las t√©cnicas podr√≠an extenderse m√°s all√° del Go. AlphaGo Zero logra un rendimiento a√ļn mejor sin utilizar ning√ļn conocimiento humano experto. Parece probable que el mismo enfoque podr√≠a extenderse a todos los juegos de informaci√≥n perfecta [tales como el ajedrez y las damas]. Este es un paso importante hacia el desarrollo de una IA de prop√≥sito general‚ÄĚ.

Advertisement

Como admiten tanto Hynes como Brown, este √ļltimo avance no significa que la singularidad tecnol√≥gica ‚ÄĒque es la hip√≥tesis de que en un futuro la inteligencia artificial ser√° capaz de crear robots mejores que s√≠ mismas- sea inminente. Pero deber√≠amos pararnos a pensar. Una vez que ense√Īamos a un sistema las reglas de un juego o las limitaciones de un problema del mundo real, el poder del aprendizaje por refuerzo permite simplemente presionar el bot√≥n de inicio y dejar que el sistema haga el resto. Luego descubrir√° las mejores maneras de tener √©xito en la tarea, dise√Īando soluciones y estrategias que est√°n m√°s all√° de las capacidades humanas, y posiblemente incluso de la comprensi√≥n humana.

Como dec√≠amos m√°s arriba, AGZ y el juego del Go representan una imagen simplificada, limitada y altamente predecible del mundo, pero en el futuro, a la AI se le encargar√°n desaf√≠os m√°s complejos. Finalmente, los sistemas de autoaprendizaje se utilizar√°n para resolver problemas m√°s apremiantes, como el plegamiento de prote√≠nas para crear nuevos medicamentos y biotecnolog√≠as, descubrir formas de reducir el consumo de energ√≠a o dise√Īar nuevos materiales. Un sistema de autoaprendizaje muy generalizado tambi√©n podr√≠a encargarse de mejorarse a s√≠ mismo, lo que nos llevar√° a una inteligencia general artificial (es decir, a una inteligencia muy similar a la humana) e incluso a una superinteligencia artificial.

Como concluyen los investigadores de DeepMind en su estudio, ‚ÄúNuestros resultados demuestran de forma integral que un enfoque de aprendizaje por refuerzo puro es completamente factible, incluso en los dominios m√°s desafiantes: es posible entrenar a nivel sobrehumano sin ejemplos humanos ni orientaci√≥n, sin conocimiento del dominio m√°s all√° de las reglas b√°sicas‚ÄĚ.

Advertisement

Y de hecho, ahora que los jugadores humanos ya no son dominantes en los juegos como el ajedrez y el Go, puede decirse que ya hemos entrado en la era de la superinteligencia. Este √ļltimo avance es el m√°s m√≠nimo indicio de lo que est√° por venir.

[Nature]