Han puesto a este algoritmo a jugar al Pitfall de Atari y, aunque los anteriores eran incapaces de hacer ni un solo punto, ya mejora a los humanos
Javier Jiménez
¿Puede un algoritmo explorar entornos complejos o, en cambio, hay que dárselo todo mascado?Es decir, ¿Podemos entrenar sistemas de inteligencia artificial para que tomen decisiones explorando y comprendiendo entornos complicados y para que aprendan a adquirir recompensas de manera óptima? Esa es la pregunta queAdrien Ecoffet, Joost Huizinga y sus colegas llevan años tratando de respondery la verdad es que es una pregunta compleja.
Por suerte,tenemos videojuegos.
Algoritmos vs videojuegos
Y es que, si lo pensamos un momento, los videojuegos sonun marco fantástico para entrenar inteligencias artificiales en este tipo de decisiones(y de probar que metodología funciona mejor): tienen todo lo necesario para aprender en entornos sucesivamente más complejos, permiten establecer recompensas basadas en llegar a una ubicación específica o completas un nivel en un videojuego y, de hecho, suponen un reto incluso para los humanos mismos.
Ecoffety su equipo trabajan con algoritmos de aprendizaje por refuerzo y decidieron probar sus nuevos enfoques con los videojuegos clásicos de Atari. Concretamente, ‘Montezuma’s Revenge’ y ‘Pitfall’. No es solo un arrebato de nostalgia, es quelos juegos de Atari 2600 se han convertido en un ‘estándar dorado’ para este tipo de sistemas. Sin ir más lejos, hasta ahora, los algoritmos conseguían modestas puntuaciones en el primero y fracasaban miserablemente en el segundo: no conseguían ni un solo punto.
La familia de algoritmos que desarrolla el equipo deEcoffet(llamada Go-Explore) cambia el asunto,según acaba de publicar la revista Nature. La idea es que los GO-Explore puedenexplorar entornos en profundidad y crear un archivo para ayudarlos a recordardónde han estado, asegurándose de no olvidar la ruta hacia una etapa intermedia prometedora o un resultado exitoso.
Y con esas herramientas, los algoritmos de Go-Explorecuadriplican las puntuaciones anteriores en ‘Montezuma’s Revenge’ysupera el rendimiento humano promedio en ‘Pitfall’(donde, como ya decía, los algoritmos anteriores no lograron obtener ningún punto).
Tras este éxito,y siempre según los datos de ‘Nature’, los investigadores han aplicado los mismos algoritmos a tareas robóticas que simulan recoger y colocar objetos con un brazo robótico (en ubicaciones aisladas detrás de puertas con cerrojo). Y es una buena noticia porqueaún queda mucho para que una IA pueda ganarnos en Fornite, el mero hecho de que lo hagan en juegos de 1982 es síntoma de que pronto lo harán (y que eso tiene interesantes aplicaciones prácticas).
Imagen| Atari - Vijoy Rao