Una ilustración conceptual del método de redes múltiples para celosía QCD muestra cuadrículas finas y gruesas. Los modos de energía de alta frecuencia de un protón aparecen como pelusa en una fina rejilla (arriba). El proceso de redes múltiples se proyecta más suave, modos de longitud de onda más larga que se pueden capturar con una cuadrícula más gruesa, que requiere menos trabajo para resolver (abajo). El proceso de redes múltiples circula entre las redes para resolver el problema de manera óptima. Crédito:Joanna Griffin, Laboratorio de Jefferson
En la búsqueda de predicciones numéricas para partículas exóticas, Los investigadores están simulando partículas de quarks y gluones formadores de átomos más de 70 veces más rápido en Summit, la supercomputadora científica más poderosa del mundo, que en su predecesor Titan en el Laboratorio Nacional Oak Ridge (ORNL) del Departamento de Energía de EE. UU. (DOE). Las interacciones de quarks y gluones se calculan utilizando cromodinámica cuántica de celosía (QCD), una versión compatible con computadoras del marco matemático que describe estas interacciones de fuerza fuerte.
Con nuevos algoritmos y optimizaciones para sistemas basados en GPU como Summit, los físicos computacionales Balint Joo del Jefferson Lab del DOE y Kate Clark del desarrollador de GPU NVIDIA están combinando dos códigos QCD de código abierto, Chroma y la biblioteca QUDA para GPU, en Summit. Ubicado en Oak Ridge Leadership Computing Facility (OLCF), Summit es un 200 petaflop, Sistema IBM AC922 que se lanzó en junio como el sistema de mayor rango en la lista Top500.
Los cálculos de QCD pueden ayudar a revelar elusivo, partículas de vida corta que son difíciles de capturar en el experimento. Los avances en las aplicaciones QCD para esta nueva generación de supercomputación beneficiarán al equipo, dirigido por el físico Robert Edwards de Jefferson Lab, en su afán por descubrir las propiedades de las partículas exóticas.
"Obtenemos predicciones de QCD, "Dijo Joo." Donde hay incógnitas teóricas, los cálculos computacionales pueden darnos estados de energía y desintegraciones de partículas para buscar en experimentos ".
Edwards y Joo trabajan en estrecha colaboración con un experimento de acelerador de partículas en Jefferson Lab llamado GlueX que está uniendo las predicciones teóricas de QCD y la evidencia experimental.
"GlueX es un experimento insignia de la actualización de 338 millones de dólares recientemente completada del Acelerador CEBAF de Jefferson Lab. El experimento en el nuevo Hall D del laboratorio está utilizando el haz de electrones para crear un haz de fotones polarizados intensos para producir partículas, incluyendo posiblemente mesones exóticos, ", Dijo Edwards." Nuestros cálculos de QCD están informando y guiando estas búsquedas experimentales ".
Máxima velocidad adelante
El equipo recibió acceso anticipado a Summit para probar el rendimiento de su código en la arquitectura del sistema. Summit tiene aproximadamente una cuarta parte del número de nodos de la supercomputadora Titan de 27 petaflop. Sin embargo, Los nodos de Summit, que comprenden dos CPU IBM Power9 y seis GPU NVIDIA Tesla V100, son excepcionalmente rápidos y con mucha memoria. incluyendo 42 teraflops de rendimiento y 512 gigabytes de memoria por nodo.
Mediante una combinación de avances de hardware y optimizaciones de software, el equipo aumentó el rendimiento en Summit nueve veces en comparación con sus simulaciones anteriores de Titan, mientras se comprime el tamaño del problema original para usar ocho veces menos GPU para una aceleración del rendimiento total de aproximadamente 72 veces.
En simulaciones de celosía QCD, el espacio-tiempo está representado por una celosía, y los científicos generan instantáneas del campo de fuerza fuerte en los enlaces de esta red, conocidas como configuraciones de calibre. Este paso inicial se llama generación de calibre. Luego, en un paso conocido como cálculo del propagador de quarks, los investigadores introducen una carga en el campo gauge y resuelven un gran sistema de ecuaciones que representa cómo se movería un quark a través del espacio y el tiempo. En un paso de análisis final, Estos propagadores de quarks se combinan en estados de partículas inicial y final, a partir de los cuales se pueden calcular los espectros de energía y relacionarlos con el experimento.
Para preparar su código para Summit, el equipo realizó mejoras algorítmicas para aumentar la eficiencia. Primero, Avanzaron en un solucionador adaptativo de múltiples redes en la biblioteca QUDA que genera cuadrículas gruesas y finas basadas en estados de energía de baja y alta energía, respectivamente. El proceso de redes múltiples implica una fase de configuración, que luego se usa en pasos de solución.
"Las GPU Summit están muy bien diseñadas para este algoritmo multigrid, y vimos potencial de aceleración allí, "Dijo Clark.
Previamente, los pasos de la solución se optimizaron para las GPU de Titan, y el solucionador de redes múltiples se utilizó para la fase de propagación de quarks de los cálculos realizados para cada configuración de calibre. Para la cumbre, el equipo integró el solucionador de redes múltiples en la fase inicial de generación de medidores.
"En la fase de generación de indicadores, Las configuraciones de los medidores cambian rápidamente y requieren que el proceso de configuración se repita con frecuencia. "Dijo Joo." Por lo tanto, un paso de optimización crucial fue trasladar esta fase de configuración por completo a las GPU ".
El equipo vio otra oportunidad para acelerar la generación de configuraciones de medidores incorporando otras mejoras algorítmicas y de software junto con el solucionador de redes múltiples.
Primero, para reducir la cantidad de trabajo necesario para cambiar de una configuración de calibre a la siguiente, el equipo implementó un integrador de gradiente de fuerza que utiliza un método de dinámica molecular previamente adaptado para QCD.
"El proceso es matemáticamente similar a simular moléculas de un gas, por lo que se reutiliza un procedimiento de dinámica molecular para generar cada nueva configuración de calibre a partir de la anterior, "Dijo Joo.
Segundo, Considerando que la biblioteca QUDA ejecuta automáticamente los cálculos necesarios para la generación de la configuración del medidor en las GPU, el algoritmo completo tiene muchas otras piezas de código que pueden causar un cuello de botella en el rendimiento si no también son aceleradas por GPU. Para evitar este cuello de botella y mejorar el rendimiento, El equipo utilizó la versión QDP-Just-in-Time (JIT) de la capa de software QDP ++ subyacente a Chroma para apuntar a todas las expresiones matemáticas para que se ejecuten completamente en GPU.
"Las mejoras en la aceleración de estas optimizaciones nos permitieron iniciar una serie de simulaciones que simplemente no podíamos contemplar realizar antes, "Dijo Joo." En Titán, ya hemos comenzado una nueva ejecución a través del programa ASCR Leadership Computing Challenge con quarks que tienen masas más parecidas a las de la naturaleza, que está dirigido directamente a nuestro programa de espectroscopia en Jefferson Lab ".