Crédito:Ni et al.
La mayoría de los algoritmos de aprendizaje profundo funcionan bien cuando se entrenan en grandes conjuntos de datos etiquetados, pero su rendimiento tiende a disminuir cuando se procesan nuevos datos. Por lo tanto, investigadores de todo el mundo han estado tratando de desarrollar técnicas que podrían mejorar la capacidad de estos algoritmos para generalizar bien tanto en datos nuevos como en datos procesados previamente. posibilitando lo que se conoce como aprendizaje permanente.
Investigadores de la Universidad de Notre Dame y GlobalFoundries Fab1 han desarrollado recientemente un nuevo método para facilitar el aprendizaje permanente en redes neuronales artificiales. lo que implica el uso de un componente de memoria de contenido direccionable ternario ferroeléctrico. Su estudio, presentado en Electrónica de la naturaleza , tenía como objetivo replicar la capacidad del cerebro humano para aprender rápidamente a partir de unos pocos ejemplos, adaptarse a nuevas tareas basadas en experiencias pasadas.
"Cuando una red neuronal profunda entrenada se encuentra con clases nunca antes vistas, a menudo no puede generalizar a partir de sus conocimientos previos y debe volver a aprender los parámetros de la red para extraer información relevante de la clase dada, "Kai Ni, uno de los investigadores que realizó el estudio, dijo a TechXplore. "Esto requiere que se pongan a disposición grandes cantidades de datos etiquetados para el entrenamiento de la red".
Un enfoque diseñado para mejorar el rendimiento de las redes neuronales profundas en datos nunca antes vistos implica la integración de un componente de memoria atencional. Este componente permite a los algoritmos basar sus análisis en conocimientos adquiridos previamente, adaptándolo para abordar tareas nuevas pero algo similares. Algoritmos con un componente de memoria atencional, conocidas como redes neuronales aumentadas de memoria (MANN), normalmente pueden extraer características de los datos, guárdelos en su memoria atencional y recupérelos cuando complete una nueva tarea.
"Una función clave del módulo de memoria es el direccionamiento basado en contenido, donde se calcula la distancia entre un vector de búsqueda y todos los vectores almacenados para encontrar la coincidencia más cercana. En un enfoque convencional, los vectores de memoria almacenados (en DRAM) deben transferirse a una unidad de cálculo (CPU o GPU) para comparar distancias con una consulta determinada, "Ni dijo." Como tal, Las limitaciones de disipación de energía y latencia pueden representar desafíos importantes para la ampliación de los MANN. En este trabajo, proponemos aplicar la memoria direccionable de contenido ternario ferroeléctrico (TCAM) como memoria de atención de la red para superar este cuello de botella ".
Al calcular la distancia entre un vector de consulta y cada entrada de memoria almacenada directamente dentro de sí misma, el componente TCAM introducido por Ni y sus colegas evita costosas transferencias de datos. TCAM se basa esencialmente en el hecho de que la corriente de descarga a través de una línea de coincidencia es proporcional a la distancia de Hamming (HD) entre la consulta y la entrada almacenada.
La detección de esta corriente de descarga permite a los investigadores calcular la HD directamente dentro del componente de memoria en paralelo. TCAM también permite que los modelos de aprendizaje profundo realicen actualizaciones de memoria basadas en contenido en lugar de actualizaciones de datos aleatorias basadas en direcciones.
"Para permitir la interacción eficiente entre la red neuronal (trabajando con número flotante) y la matriz TCAM (solo calculando la distancia HD), aplicamos una función hash sensible a la localidad (LSH) para mapear un vector de características de valor real extraído de la NN a un espacio de firma binaria, que permite una búsqueda de vecino más cercano basada en la distancia de Hamming dentro de la matriz TCAM, "Ni explicó.
Ni y sus colegas evaluaron su prototipo de TCAM ferroeléctrico en una serie de pruebas en las que una red neuronal profunda tuvo que aprender a completar nuevas tareas basándose en uno o más ejemplos. Cuando se implementa en una GPU respaldada por DRAM externa, su método condujo a precisiones de clasificación que se acercan a las obtenidas por un método más convencional basado en el cálculo de la distancia del coseno (por ejemplo, una precisión del 99,5 por ciento frente a una precisión del 99,05 por ciento para un dispositivo de 20 vías, problema de aprendizaje de cinco disparos). Notablemente, el sistema basado en TCAM logró precisiones similares a las del enfoque más convencional con una reducción de 60 veces en el consumo de energía y 2, Reducción de 700 veces la latencia para una sola operación de búsqueda.
"Las contribuciones de esta investigación son varias, "Ni dijo". En primer lugar, demostramos la celda TCAM más compacta hasta la fecha, que solo se compone de dos FeFET, pero proporciona la densidad de memoria más alta y probablemente, en general, el mejor rendimiento entre todas las demás alternativas. En segundo lugar, demostramos la funcionalidad del cálculo de la distancia HD con una matriz TCAM. Finalmente, aplicamos el kernel TCAM en MANN para el aprendizaje de una sola vez y proporcionamos una solución de sistema de extremo a extremo ".
En el futuro, El nuevo componente de memoria propuesto por Ni y sus colegas podría ayudar al desarrollo de modelos basados en aprendizaje profundo más eficientes que funcionen bien tanto en tareas familiares como nuevas. Los investigadores ahora planean desarrollar un prototipo basado en TCAM más grande que podría permitir un mayor aumento en el rendimiento.
"El trabajo existente demuestra nuestro enfoque a pequeña escala debido a nuestras limitaciones de configuración de medición, "Ni dijo." Estamos planeando diseñar una matriz más grande, junto con importantes circuitos periféricos, para que el TCAM pueda ser un módulo autónomo. Aparte de eso, La optimización del nivel del dispositivo sigue siendo necesaria para mejorar la resistencia FeFET, variación, y fiabilidad, etc. "
© 2019 Science X Network