Crédito:CC0 Public Domain
Las expectativas de las inteligencias artificiales son muy reales y muy altas. Un análisis en Forbes proyecta los ingresos de A.I. se disparará de $ 1,62 mil millones en 2018 a $ 31,2 mil millones en 2025. El informe también incluyó una encuesta que revela que el 84 por ciento de las empresas creen que invertir en A.I. conducirá a ventajas competitivas.
"Es emocionante ver los tremendos éxitos y el progreso logrado en los últimos años, "dice Daniel Jiang, profesor asistente de ingeniería industrial en la Escuela de Ingeniería Swanson de la Universidad de Pittsburgh. "Para continuar con esta tendencia, buscamos desarrollar métodos más sofisticados para que los algoritmos aprendan estrategias para una toma de decisiones óptima ".
El Dr. Jiang diseña algoritmos que aprenden estrategias de decisión en entornos complejos e inciertos. Al probar algoritmos en entornos simulados, pueden aprender de sus errores mientras descubren y refuerzan estrategias para el éxito. Para perfeccionar este proceso, El Dr. Jiang y muchos investigadores en su campo requieren simulaciones que reflejen el mundo real.
"Como ingenieros industriales, normalmente trabajamos en problemas con un enfoque operativo. Por ejemplo, transporte, logística y cadenas de suministro, los sistemas de energía y la atención de la salud son varias áreas importantes, ", dice." Todos esos problemas son operaciones de alto riesgo con consecuencias en el mundo real. No crean los mejores entornos para probar tecnologías experimentales, especialmente cuando muchos de nuestros algoritmos pueden considerarse formas inteligentes de repetición de 'prueba y error' sobre todas las acciones posibles ".
Una estrategia para preparar la I.A. avanzada asumir escenarios y complicaciones del mundo real es utilizar datos históricos. Por ejemplo, Los algoritmos podían analizar décadas de datos para encontrar qué decisiones fueron efectivas y cuáles condujeron a resultados menos que óptimos. Sin embargo, Los investigadores han encontrado difícil probar algoritmos diseñados para aprender comportamientos adaptativos utilizando solo datos del pasado.
El Dr. Jiang explica:"Los datos históricos pueden ser un problema porque las acciones de las personas solucionan las consecuencias y no presentan posibilidades alternativas. En otras palabras, Es difícil para un algoritmo hacer la pregunta "¿cómo serían las cosas diferentes si eligiera la puerta B en lugar de la puerta A?" En datos históricos, todo lo que podemos ver son las consecuencias de la puerta A. "
Juegos de vídeo, como alternativa, ofrecen entornos de prueba ricos llenos de toma de decisiones complejas sin los peligros de poner una IA inmadura completamente a cargo. A diferencia del mundo real, proporcionan una forma segura para que un algoritmo aprenda de sus errores.
"Los diseñadores de videojuegos no crean juegos con el objetivo de probar modelos o simulaciones, "Dice el Dr. Jiang." A menudo están diseñando juegos con una misión doble:crear entornos que imiten el mundo real y desafiar a los jugadores a tomar decisiones difíciles. Estos objetivos también se alinean con lo que estamos buscando. También, los juegos son mucho más rápidos. En unas pocas horas de tiempo real, podemos evaluar los resultados de cientos de miles de decisiones de juego ".
Para probar su algoritmo, El Dr. Jiang usó un género de videojuegos llamado Multiplayer Online Battle Arena o MOBA. Juegos como League of Legends o Heroes of the Storm son MOBA populares en los que los jugadores controlan uno de varios personajes "héroes" e intentan destruir las bases de los oponentes mientras protegen las suyas.
Un algoritmo exitoso para entrenar un juego A.I. debe superar varios desafíos, tales como la toma de decisiones en tiempo real y los horizontes de decisión largos, un término matemático para cuando las consecuencias de algunas decisiones no se conocen hasta mucho más tarde.
"Diseñamos el algoritmo para evaluar 41 piezas de información y luego generar una de 22 acciones diferentes, incluido el movimiento, ataques y movimientos especiales, "dice el Dr. Jiang." Comparamos diferentes métodos de entrenamiento entre sí. El jugador más exitoso utilizó un método llamado búsqueda de árbol de Monte Carlo para generar datos, que luego se alimenta a una red neuronal ".
La búsqueda de árboles de Montecarlo es una estrategia para la toma de decisiones en la que el jugador se mueve aleatoriamente a través de una simulación o un videojuego. Luego, el algoritmo analiza los resultados del juego para dar más peso a las acciones más exitosas. Con el tiempo y múltiples iteraciones del juego, las acciones más exitosas persisten, y el jugador mejora a la hora de ganar el juego.
"Nuestra investigación también arrojó algunos resultados teóricos para mostrar que la búsqueda de árboles de Monte Carlo es una estrategia eficaz para capacitar a un agente para que tenga éxito en la toma de decisiones difíciles en tiempo real, incluso cuando se opera en un mundo incierto, "Explica el Dr. Jiang.
El Dr. Jiang publicó su investigación en un artículo en coautoría con Emmanuel Ekwedike y Han Liu y presentó los resultados en la Conferencia Internacional sobre Aprendizaje Automático de 2018 en Estocolmo. Suecia el verano pasado.
En la Universidad de Pittsburgh, continúa trabajando en el área de toma de decisiones secuencial con Ph.D. los estudiantes Yijia Wang e Ibrahim El-Shar. El equipo se centra en los problemas relacionados con los viajes compartidos, mercados energéticos, y salud pública. A medida que las industrias se preparan para poner A.I. a cargo de responsabilidades críticas, El Dr. Jiang se asegura de que los algoritmos subyacentes se mantengan en la cima de su juego.