Un chip que comprende varios dispositivos PCM. Las sondas eléctricas que entran en contacto con él se utilizan para enviar señales a dispositivos individuales para realizar la multiplicación en memoria. Crédito:IBM
Esta semana, en la Reunión Internacional de Dispositivos Electrónicos (IEDM) y la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS), Los investigadores de IBM mostrarán nuevo hardware que llevará la IA más lejos de lo que ha estado antes:hasta el límite. Nuestros enfoques novedosos para chips de inteligencia artificial digitales y analógicos aumentan la velocidad y reducen la demanda de energía para el aprendizaje profundo, sin sacrificar la precisión. En el lado digital, estamos preparando el escenario para un nuevo estándar de la industria en la capacitación de IA con un enfoque que logra una precisión total con precisión de ocho bits, acelerando el tiempo de entrenamiento de dos a cuatro veces en comparación con los sistemas actuales. En el lado analógico, informamos de precisión de ocho bits, la más alta hasta ahora, para un chip analógico, aproximadamente duplica la precisión en comparación con los chips analógicos anteriores y consume 33 veces menos energía que una arquitectura digital de precisión similar. Estos logros presagian una nueva era de hardware informático diseñado para liberar todo el potencial de la IA.
Hacia la era posterior a la GPU
Las innovaciones en software y hardware de IA han impulsado en gran medida una mejora de 2,5 veces al año en el rendimiento informático para IA desde 2009, cuando se adoptaron por primera vez las GPU para acelerar el aprendizaje profundo. Pero estamos llegando al límite de lo que pueden hacer las GPU y el software. Para resolver nuestros problemas más difíciles, el hardware necesita escalar. La próxima generación de aplicaciones de IA necesitará tiempos de respuesta más rápidos, mayores cargas de trabajo de IA, y datos multimodales de numerosos flujos. Para liberar todo el potencial de la IA, estamos rediseñando el hardware teniendo en cuenta la IA:desde aceleradores hasta hardware especialmente diseñado para cargas de trabajo de IA, como nuestros nuevos chips, y eventualmente computación cuántica para IA. Escalar la IA con nuevas soluciones de hardware es parte de un esfuerzo más amplio en IBM Research para pasar de una IA estrecha, a menudo se usa para resolver problemas específicos, tareas bien definidas, a la IA amplia, que abarca todas las disciplinas para ayudar a los humanos a resolver nuestros problemas más urgentes.
Aceleradores de IA digitales con precisión reducida
IBM Research lanzó el enfoque de precisión reducida para el entrenamiento y la inferencia de modelos de IA con un documento histórico que describe un enfoque de flujo de datos novedoso para las tecnologías CMOS convencionales para acelerar las plataformas de hardware al reducir drásticamente la precisión de bits de los datos y los cálculos. Se mostraron modelos entrenados con precisión de 16 bits, Por primera vez, para no mostrar pérdida de precisión en comparación con los modelos entrenados con precisión de 32 bits. En los años siguientes, el enfoque de precisión reducida se adoptó rápidamente como el estándar de la industria, con entrenamiento de 16 bits e inferencia de ocho bits ahora común, y estimuló una explosión de nuevas empresas y capital de riesgo para chips de IA digitales basados en precisión reducidos.
El próximo estándar de la industria para la formación en IA
El próximo hito importante en el entrenamiento de precisión reducida se presentará en NeurIPS en un artículo titulado "Entrenamiento de redes neuronales profundas con números de punto flotante de ocho bits" (autores:Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen, Kailash Gopalakrishnan). En este papel, Se han propuesto varias ideas nuevas para superar los desafíos (y ortodoxias) anteriores asociados con la reducción de la precisión del entrenamiento por debajo de 16 bits. Usando estos enfoques recientemente propuestos, hemos demostrado, por primera vez, la capacidad de entrenar modelos de aprendizaje profundo con precisión de ocho bits mientras se preserva por completo la precisión del modelo en todas las categorías principales de conjuntos de datos de IA:imagen, habla, y texto. Las técnicas aceleran el tiempo de entrenamiento para las redes neuronales profundas (DNN) de dos a cuatro veces en comparación con los sistemas de 16 bits actuales. Aunque anteriormente se consideraba imposible reducir aún más la precisión del entrenamiento, Esperamos que esta plataforma de formación de ocho bits se convierta en un estándar industrial ampliamente adoptado en los próximos años.
La reducción de la precisión de bits es una estrategia que se espera que contribuya a la creación de plataformas de aprendizaje automático a gran escala más eficientes. y estos resultados marcan un importante paso adelante en la ampliación de la IA. Combinando este enfoque con una arquitectura de flujo de datos personalizada, Se puede usar una arquitectura de chip único para ejecutar de manera eficiente la capacitación y la inferencia en una variedad de cargas de trabajo y redes, grandes y pequeñas. Este enfoque también puede acomodar "mini lotes" de datos, necesarios para las amplias capacidades críticas de IA sin comprometer el rendimiento. La realización de todas estas capacidades con precisión de ocho bits para el entrenamiento también abre el ámbito de la IA amplia y eficiente en energía en el borde.
Chips analógicos para computación en memoria
Gracias a sus bajos requisitos de potencia, alta eficiencia energética, y alta fiabilidad, La tecnología analógica es un ajuste natural para la IA en el borde. Los aceleradores analógicos impulsarán una hoja de ruta de la aceleración del hardware de IA más allá de los límites de los enfoques digitales convencionales. Sin embargo, Considerando que el hardware de IA digital está en una carrera por reducir la precisión, analógico hasta ahora ha estado limitado por su precisión intrínseca relativamente baja, impactando la precisión del modelo. Desarrollamos una nueva técnica para compensar esto, logrando la mayor precisión hasta ahora para un chip analógico. Nuestro artículo en IEDM, "Multiplicación de precisión en memoria de 8 bits con memoria de cambio de fase proyectada" (autores:Iason Giannopoulos, Abu Sebastian, Manuel Le Gallo, V. P. Jonnalagadda, M. Sousa, M. N. Boon, Evangelos Eleftheriou), muestra que esta técnica logró una precisión de ocho bits en una operación de multiplicación escalar, duplicando aproximadamente la precisión de los chips analógicos anteriores, y consumió 33 veces menos energía que una arquitectura digital de precisión similar.
La clave para reducir el consumo de energía es cambiar la arquitectura de la informática. Con el hardware informático actual, los datos deben moverse de la memoria a los procesadores para usarlos en los cálculos, lo que requiere mucho tiempo y energía. Una alternativa es la computación en memoria, en el que unidades de memoria luz de la luna como procesadores, haciendo de manera efectiva una doble función tanto de almacenamiento como de cálculo. Esto evita la necesidad de transferir datos entre la memoria y el procesador, ahorrando tiempo y reduciendo la demanda de energía en un 90 por ciento o más.
Memoria de cambio de fase
Nuestro dispositivo utiliza memoria de cambio de fase (PCM) para la computación en memoria. PCM registra pesos sinápticos en su estado físico a lo largo de un gradiente entre amorfo y cristalino. La conductancia del material cambia junto con su estado físico y puede modificarse mediante pulsos eléctricos. Así es como PCM puede realizar cálculos. Debido a que el estado puede estar en cualquier parte del continuo entre cero y uno, se considera un valor analógico, a diferencia de un valor digital, que es cero o uno, nada en el medio.
Hemos mejorado la precisión y la estabilidad de los pesos almacenados en PCM con un enfoque novedoso, llamado PCM proyectado (Proj-PCM), en el que insertamos un segmento de proyección no aislante en paralelo al segmento de cambio de fase. Durante el proceso de escritura, el segmento de proyección tiene un impacto mínimo en el funcionamiento del dispositivo. Sin embargo, durante la lectura, Los valores de conductancia de los estados programados están determinados principalmente por el segmento de proyección, que es notablemente inmune a las variaciones de conductancia. Esto permite que los dispositivos Proj-PCM logren una precisión mucho mayor que los dispositivos PCM anteriores.
La precisión mejorada lograda por nuestro equipo de investigación indica que la computación en memoria puede lograr un aprendizaje profundo de alto rendimiento en entornos de bajo consumo de energía. como IoT y aplicaciones de borde. Al igual que con nuestros aceleradores digitales, Nuestros chips analógicos están diseñados para escalar para el entrenamiento de IA y la inferencia a través de visual, habla, y conjuntos de datos de texto y extendiéndose a la IA emergente más amplia. Estaremos demostrando un chip PCM publicado anteriormente durante toda la semana en NeurIPS, usándolo para clasificar dígitos escritos a mano en tiempo real a través de la nube.
Esta historia se vuelve a publicar por cortesía de IBM Research. Lea la historia original aquí.