Los investigadores de PNNL utilizaron 500, 000 grupos de agua de una base de datos desarrollada recientemente de más de 5 millones de mínimos de grupos de agua para entrenar una red neuronal que se basa en el poder matemático de la teoría de grafos, una colección de nodos y enlaces que representan la estructura molecular, para descifrar patrones estructurales de agregación de moléculas de agua. Crédito:Nathan Johnson | PNNL
Algoritmos de aprendizaje automático, la base de las redes neuronales, están abriendo puertas a nuevos descubrimientos, o al menos ofreciendo pistas tentadoras, una base de datos masiva a la vez. Caso en cuestión:los investigadores del Laboratorio Nacional del Noroeste del Pacífico (PNNL) profundizaron en el modelado de las interacciones entre las moléculas de agua, encontrar información sobre los enlaces de hidrógeno y los patrones estructurales mientras abre un camino utilizando, lo adivinó, el aprendizaje profundo.
"Las redes neuronales son una forma de que la computadora aprenda automáticamente diferentes propiedades de sistemas o datos, "dijo el científico de datos de PNNL, Jenna Pope. "En este caso, la red neuronal aprende la energía de diferentes redes de grupos de agua basándose en datos anteriores ".
Los investigadores de PNNL utilizaron 500, 000 grupos de agua de una base de datos desarrollada recientemente de más de 5 millones de mínimos de grupos de agua para entrenar una red neuronal que se basa en el poder matemático de la teoría de grafos, una colección de nodos y enlaces que representan la estructura molecular, para descifrar patrones estructurales de agregación de moléculas de agua. Trabajando con lo molecular, forma gaseosa del agua, prestaron especial atención a la relación entre los enlaces de hidrógeno y la energía en relación con la estructura más estable.
"Ese es el santo grial, "dijo el Papa." Ahora mismo, Se necesita mucho esfuerzo para desarrollar un potencial de interacción preciso para el agua. Pero con las redes neuronales, el objetivo final es que las redes aprendan, de un gran conjunto de datos, cuál es la energía de una red en función de su estructura molecular subyacente ".
Después de dimensionar 500, 000 racimos de agua, La red neuronal en el estudio dirigido por PNNL se entrenó en las diversas formas en que las moléculas de agua interactúan entre sí. En teoría, el conjunto de datos podría haber incluido la base de datos completa de 5 millones de redes de agua. Pero por razones prácticas no fue así.
"Usar toda la base de datos para entrenar la red neuronal habría llevado demasiado tiempo de cálculo, ", dijo Pope. Entrenando las redes neuronales profundas para examinar esos 500, 000 grupos de agua, solo una décima parte de la base de datos completa, tomó más de dos días y medio utilizando cuatro computadoras de última generación con un rendimiento considerable de la unidad de procesamiento de gráficos (GPU), trabajando las veinticuatro horas del día.
Parte de una imagen más grande
Las redes neuronales existen desde hace décadas. Mayor poder de procesamiento de chips GPU en los últimos 10 años, sin embargo, ha avanzado drásticamente la capacidad de estas redes, también asociado con la frase "aprendizaje profundo". Incluso con tal promesa, El entrenamiento de redes neuronales es un desafío computacional costoso. Y por más precisos que sean, Las redes neuronales a menudo son criticadas como cajas negras que no ofrecen información sobre por qué están dando la respuesta que dan.
El Proyecto de Computación Exascale (ECP) del Departamento de Energía de EE. UU. (DOE) se lanzó en 2016 para explorar los problemas de supercomputación más difíciles de resolver. incluido el refinamiento de las redes neuronales. En 2018, ECP generó el Centro de Co-Diseño ExaLearn, centrándose en tecnologías de aprendizaje automático. PNNL se encuentra entre los ocho laboratorios nacionales que participan en el proyecto ExaLearn. James Ang, Científico jefe de PNNL para la informática en Ciencias Físicas y Computacionales, lidera la participación del Laboratorio.
Base de datos cerca de casa
Uno de los principales objetivos de ExaLearn es desarrollar tecnologías de inteligencia artificial que puedan diseñar nuevas estructuras químicas aprendiendo de conjuntos de datos masivos. Investigación dirigida por Sutanay Choudhury, un informático de la PNNL, aprovechado la enorme base de datos de agrupaciones de agua desarrollada en el campus de PNNL-Richland por Sotiris Xantheas, becario del laboratorio PNNL. Xanteas conocido en física química por su investigación en interacciones intermoleculares en grupos iónicos acuosos, es coautor del estudio de redes neuronales publicado en el número especial "Machine Learning Meets Chemical Physics" de la Revista de física química .
"Varias propiedades macroscópicas del agua se han atribuido a su red fugaz de enlaces de hidrógeno, que consiste en una red dinámica de enlaces que se rompen y reforman en una fracción de segundo a temperatura ambiente, "dijo Xantheas, cuyo trabajo de base de datos fue apoyado por la Oficina de Ciencias del DOE, Programa de Ciencias Básicas de la Energía, Ciencias Químicas, Geociencias, y División de Biociencias. "Los cúmulos de agua proporcionan un banco de pruebas para sondear esta red fugaz de enlaces de hidrógeno al comprender la relación estructura-energía de los diferentes arreglos de enlaces de hidrógeno".
Los investigadores de PNNL tenían una estrategia para descifrar esta caja negra en particular. Utilizaron la teoría de grafos, una rama de las matemáticas que estudia cómo se conectan las cosas en una red, para representar, en forma gráfica, moléculas y sus subestructuras poligonales. Los descriptores teóricos de gráficos que ideó el equipo proporcionaron varias ideas sobre la composición de los grupos de agua.
"Lo que hemos hecho, "dijo el Papa, "Se proporciona un análisis adicional después de que se entrena la red. El análisis cuantifica diferentes propiedades estructurales de estas redes de grupos de agua. Luego, podemos compararlas con nuestra red neuronal predicha y, en exámenes posteriores de conjuntos de datos, mejorar la comprensión de la red ".
El agua tiene un futuro de red neuronal
Los hallazgos del estudio proporcionan una base para el análisis de los patrones estructurales de los grupos de agua en redes más complejas con enlaces de hidrógeno. como agua líquida y hielo.
"Si pudieras entrenar una red neuronal, "dijo el Papa, "Esa red neuronal sería capaz de hacer química computacional en sistemas más grandes. Y luego podrías obtener conocimientos similares en química computacional sobre la estructura química o los enlaces de hidrógeno o la respuesta de las moléculas a los cambios de temperatura. Esos son algunos de los objetivos de esta investigación".