Los investigadores están utilizando la diferenciación automática y otras técnicas para hacer que el aprendizaje profundo sea más rápido y sencillo. Crédito:Universidad Purdue
Los sistemas de inteligencia artificial basados en el aprendizaje profundo están cambiando los dispositivos electrónicos que nos rodean.
Los resultados de este aprendizaje profundo es algo que se ve cada vez que una computadora comprende nuestro habla, buscamos una foto de un amigo o vemos un anuncio colocado correctamente. Pero el aprendizaje profundo en sí mismo requiere enormes grupos de computadoras y ejecuciones de una semana.
"Los métodos desarrollados por nuestro equipo internacional reducirán esta carga, "dijo Jeffrey Mark Siskind, profesor de ingeniería eléctrica e informática en la Facultad de Ingeniería de Purdue. "Nuestros métodos permiten a las personas con computadoras más modestas realizar los tipos de aprendizaje profundo que solían requerir clústeres multimillonarios, y permitir que los programadores escriban programas en horas que solían requerir meses ".
El aprendizaje profundo utiliza un tipo particular de cálculo en su esencia:una técnica inteligente, llamada diferenciación automática (AD) en el modo de acumulación inversa, para calcular de manera eficiente cómo los ajustes a una gran cantidad de controles afectarán un resultado.
"Se han creado sofisticados sistemas de software y clústeres de computadoras gigantes para realizar este cálculo en particular, "dijo Barak Pearlmutter, profesor de informática en la Universidad de Maynooth en Irlanda, y el otro principal de esta colaboración. "Estos sistemas son la base de gran parte de la IA en la sociedad:reconocimiento de voz, busqueda de internet, comprensión de la imagen, Reconocimiento facial, traducción automática y colocación de anuncios ".
Una limitación importante de estos sistemas de aprendizaje profundo es que admiten este cálculo de AD en particular de manera muy rígida.
"Estos sistemas solo funcionan en tipos muy restringidos de programas informáticos:los que consumen números en su entrada, realizar las mismas operaciones numéricas en ellos independientemente de sus valores, y generar los números resultantes, "Dijo Siskind.
Los investigadores dijeron que otra limitación es que la operación de AD requiere una gran cantidad de memoria de computadora. Estas restricciones limitan el tamaño y la sofisticación de los sistemas de aprendizaje profundo que se pueden construir. Por ejemplo, hacen que sea difícil construir un sistema de aprendizaje profundo que realice una cantidad variable de cálculo dependiendo de la dificultad de la entrada en particular, uno que trata de anticipar las acciones de un usuario adaptativo inteligente, o uno que produce como salida un programa de computadora.
Siskind dijo que la colaboración tiene como objetivo eliminar estas restricciones.
Una serie de innovaciones permite no solo AD en modo inverso, pero otros modos de AD, para ser utilizado de manera eficiente; para que estas operaciones se realicen en cascada, y se aplica no solo a cálculos rígidos sino también a programas informáticos arbitrarios; para incrementar la eficiencia de estos procesos; y por reducir en gran medida la cantidad de memoria necesaria para la computadora.
"Por lo general, este tipo de ganancias tiene el precio de aumentar la carga sobre los programadores de computadoras, "Siskind dijo." Aquí, las técnicas desarrolladas permiten esta mayor flexibilidad y eficiencia al tiempo que reducen en gran medida el trabajo que los programadores de computadoras que construyen sistemas de IA necesitarán hacer ".
Por ejemplo, anteriormente se conocía una técnica llamada "punto de control inverso AD" para reducir los requisitos de memoria, pero solo se puede aplicar en configuraciones limitadas, fue muy engorroso, y requirió una gran cantidad de trabajo adicional por parte de los programadores informáticos que construían los sistemas de aprendizaje profundo.
Un método desarrollado por el equipo permite la reducción de los requisitos de memoria para aplicar a cualquier programa informático, y no requiere trabajo adicional de los programadores de computadoras que construyen los sistemas de IA.
"La reducción masiva de RAM requerida para entrenar sistemas de IA debería permitir la construcción de sistemas más sofisticados, y debería permitir que el aprendizaje automático se realice en máquinas más pequeñas:teléfonos inteligentes en lugar de enormes clústeres de computadoras, "Dijo Siskind.
Como un todo, esta tecnología tiene el potencial de facilitar la construcción de sofisticados sistemas de inteligencia artificial basados en el aprendizaje profundo.
"Estos avances teóricos se están integrando en una implementación altamente eficiente con todas las funciones que se ejecuta tanto en CPU como en GPU y es compatible con una amplia gama de componentes estándar utilizados para construir modelos de aprendizaje profundo, "Dijo Siskind.