En TikTok, entre los vídeos de “prepárate conmigo”, los trucos para la vida y los memes, algunos robots están trabajando en un desafío que muchos Muchos de nosotros nos hemos enfrentado en algún momento de nuestras vidas: golpes Super Mario World. Durante la última semana, los usuarios han sido transmitiendo en vivo un IA intenta aprender a jugar Mario, y para un robot en particular, va genial. Su nombre es Rupert y acaba de superar el nivel 2.
La estrategia de la IA le resultará familiar a cualquiera que recuerde la primera vez que usó un control Super Nintendo. Rupert corre, salta y choca contra los enemigos. , cae por acantilados y muere, una y otra vez. Cada vez que muere, Rupert lo intenta de nuevo. Por lo general, hace casi exactamente los mismos movimientos que lo mataron en la última ronda. Pero si miras mucho suficiente, notarás que Rupert está evolucionando y mejorando.s aprendizaje.
“Es un programa que está hecho para simular la selección natural con redes neurales», dijo Join The PCMasterRace, el usuario de TikTok responsable de Rupert, quien pidió no usar su nombre real (PCMasterRace es el nombre objetable de un subreddit sobre computadoras de escritorio).
En otras palabras, Rupert es un sistema de algoritmos de aprendizaje automático que mejora al observar sus propios errores. Rupert tiene un objetivo establecido : llega al otro extremo del nivel. Sabe qué botones puede presionar y puede ver lo que sucede en la pantalla . (En realidad, puedes ver lo que Rupert “ves” en la parte superior izquierda del video a continuación.) Pero a diferencia de un operador humano de Mario, una IA no puede simplemente hacer suposiciones que debería evitar los Koopas o tratar de no caerse de una repisa. Todo lo que Rupert tiene es retroalimentación positiva y negativa. Básicamente, Rupert intenta cosas Al azar. Recuerda lo que funcionó y lo que no, y su estrategia mejora con el tiempo.
Ruperto modelado según la evolución en el sentido de que funciona utilizando “especies” y “generaciones”. La IA intenta una estrategia particular para cada especie, que dura entre dos y seis ejecuciones. Por cada 50-100 especies, la IA recopila lo que aprendió en una “generación”.
A medida que la IA juega, obtiene una puntuación de “estado físico”. El estado físico aumenta en función de qué tan lejos Mario llega a la derecha y más rápido llega allí. Las generaciones con mayor condición física son seleccionadas para ser “criadas” para las generaciones futuras, lo que significa que la IA se construye sobre la Comportamientos y patrones que funcionaron y comienzan de nuevo. Eso permite que su toma de decisiones se vuelva más sofisticada y compleja con el tiempo.
Es lento, pero funciona. A Rupert solo le tomó 57 generaciones superar el nivel uno, lo que provocó celebración en los comentarios mientras los espectadores vitoreaban. El éxito de Rupert.
Rupert, junto con otro jugador de AI Mario que transmite TikTok llamado cariñosamente Jorge, está ejecutando un programa de código abierto llamado MarI/O. Fue creado por el codificador y transmisor en vivo Seth Hendrickson, quien pasa por SethBling en línea. MarI/O no es nuevo. Hendrickson lo lanzó hace años, pero las maquinaciones del robot tienen un significado renovado en una era donde la industria tecnológica quiere que creamos que la IA pronto tomará el control el mundo.
MarI/O es mucho más simplista que un sistema como ChatGPT, pero es una ventana a cómo Modelos de IA trabajar. Estas herramientas de IA arrojan espaguetis a la pared y los humanos diseñan sistemas para decirles si este intento fue mejor o peor que el último. A medida que pasa el tiempo, los intentos mejoran. Ahora imagina que eso sucede millones o miles de millones de veces. vea una explicación más detallada en uno de los videos de Hendrickson:
con ChatGPT, es exponencialmente más complicado. MarI/O no tiene tantas opciones: izquierda, derecha, arriba, abajo, A, B, X, y Y. El idioma inglés, por otro lado, tiene cientos de miles de palabras, una infinidad de formas de ordenarlas palabras y un número teóricamente infinito de ideas. MarI/O es mucho más simple que ChatGPT—y la tecnología es fundamentalmente diferente, pero si entiendes cómo funciona MarI/O, puedes extrapolarlo para obtener una comprensión útil de la tecnología de chatbot.
Rupert, lamentablemente, es sólo un pequeño . Está haciendo lo mejor pero Rupert va a tener problemas cuando llegue más adentro el juego. El sistema de MarI/O solo se recompensa a sí mismo en función de qué tan lejos llega Mario a la derecha de la pantalla, pero en algunos niveles. En Super Mario world, tienes que trepar para alcanzar la meta, en lugar de ir hacia la derecha.
“Sin embargo, estoy planeando modificarlo para que pueda trepar mejor por estructuras verticales”, dijo Join the PCMasterRace.
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.