Brookhaven Lab colaboró con la Universidad de Columbia, Universidad de Edimburgo, e Intel para optimizar el rendimiento de una computadora paralela de 144 nodos construida a partir de los procesadores Xeon Phi de Intel y la red de comunicación de alta velocidad Omni-Path. La computadora está instalada en el Centro de Computación y Datos Científicos de Brookhaven, como se vio arriba con el ingeniero tecnológico Costin Caramarcu. Crédito:Laboratorio Nacional Brookhaven
La computación de alto rendimiento (HPC), el uso de supercomputadoras y técnicas de procesamiento paralelo para resolver grandes problemas computacionales, es de gran utilidad en la comunidad científica. Por ejemplo, Los científicos del Laboratorio Nacional Brookhaven del Departamento de Energía de EE. UU. (DOE) confían en HPC para analizar los datos que recopilan en las instalaciones experimentales a gran escala en el sitio y para modelar procesos complejos que serían demasiado costosos o imposibles de demostrar experimentalmente.
Aplicaciones de la ciencia moderna, como simular interacciones de partículas, a menudo requieren una combinación de potencia informática agregada, redes de alta velocidad para transferencia de datos, grandes cantidades de memoria, y capacidades de almacenamiento de alta capacidad. Se necesitan avances en hardware y software de HPC para cumplir con estos requisitos. Los científicos y matemáticos informáticos y computacionales de la Iniciativa de Ciencias Computacionales (CSI) de Brookhaven Lab están colaborando con físicos, biólogos, y otros científicos del dominio para comprender sus necesidades de análisis de datos y proporcionar soluciones para acelerar el proceso de descubrimiento científico.
Un líder de la industria de HPC
Por décadas, Intel Corporation ha sido uno de los líderes en el desarrollo de tecnologías HPC. En 2016, la empresa lanzó los procesadores Intel Xeon PhiTM (anteriormente denominados en código "Knights Landing"), su arquitectura HPC de segunda generación que integra muchas unidades de procesamiento (núcleos) por chip. El mismo año, Intel lanzó la red de comunicación de alta velocidad Intel Omni-Path Architecture. Para el 5, 000 a 100, 000 computadoras individuales, o nodos, en supercomputadoras modernas para trabajar juntas para resolver un problema, deben poder comunicarse rápidamente entre sí mientras minimizan los retrasos en la red.
Poco después de estos lanzamientos, Brookhaven Lab y RIKEN, La institución de investigación integral más grande de Japón, reunió sus recursos para comprar una pequeña computadora paralela de 144 nodos construida a partir de procesadores Xeon Phi y dos conexiones de red independientes, o rieles, utilizando la arquitectura Omni-Path de Intel. La computadora se instaló en el Centro de Computación y Datos Científicos de Brookhaven Lab, que es parte de CSI.
Una imagen del dado del procesador Xeon Phi Knights Landing. Un troquel es un patrón en una oblea de material semiconductor que contiene los circuitos electrónicos para realizar una función particular. Crédito:Intel
Con la instalación completada, el físico Chulwoo Jung y el científico computacional de CSI Meifeng Lin de Brookhaven Lab; el físico teórico Christoph Lehner, un designado conjunto en Brookhaven Lab y la Universidad de Regensburg en Alemania; Cristo normando, el profesor Ephraim Gildor de Física Teórica Computacional en la Universidad de Columbia; y el físico teórico de partículas Peter Boyle de la Universidad de Edimburgo trabajaron en estrecha colaboración con los ingenieros de software de Intel para optimizar el software de red para dos aplicaciones científicas:física de partículas y aprendizaje automático.
"CSI había estado muy interesado en la arquitectura Intel Omni-Path desde que se anunció en 2015, ", dijo Lin." La experiencia de los ingenieros de Intel fue fundamental para implementar las optimizaciones de software que nos permitieron aprovechar al máximo esta red de comunicación de alto rendimiento para nuestras necesidades de aplicaciones específicas ".
Requisitos de red para aplicaciones científicas
Para muchas aplicaciones científicas, ejecutar un rango (un valor que distingue un proceso de otro) o posiblemente unos pocos rangos por nodo en una computadora paralela es mucho más eficiente que ejecutar varios rangos por nodo. Cada rango normalmente se ejecuta como un proceso independiente que se comunica con los demás rangos mediante un protocolo estándar conocido como Interfaz de paso de mensajes (MPI).
Por ejemplo, Los físicos que buscan comprender cómo se formó el universo temprano ejecutan complejas simulaciones numéricas de interacciones de partículas basadas en la teoría de la cromodinámica cuántica (QCD). Esta teoría explica cómo las partículas elementales llamadas quarks y gluones interactúan para formar las partículas que observamos directamente, como protones y neutrones. Los físicos modelan estas interacciones utilizando supercomputadoras que representan las tres dimensiones del espacio y la dimensión del tiempo en una red de cuatro dimensiones (4-D) de puntos igualmente espaciados, similar a la de un cristal. La celosía se divide en subvolúmenes idénticos más pequeños. Para cálculos de celosía QCD, los datos deben intercambiarse en los límites entre los diferentes subvolúmenes. Si hay varios rangos por nodo, cada rango aloja un subvolumen 4-D diferente. Por lo tanto, dividir los subvolúmenes crea más límites donde los datos deben intercambiarse y, por lo tanto, transferencias de datos innecesarias que ralentizan los cálculos.
Un esquema de la red para cálculos de cromodinámica cuántica. Los puntos de intersección en la cuadrícula representan valores de quarks, mientras que las líneas entre ellos representan valores de gluones. Crédito:Laboratorio Nacional Brookhaven
Optimizaciones de software para avanzar en la ciencia
Para optimizar el software de red para una aplicación científica tan computacionalmente intensiva, el equipo se centró en mejorar la velocidad de un solo rango.
"Hicimos que el código para un solo rango de MPI se ejecutara más rápido para que no se necesitara una proliferación de rangos de MPI para manejar la gran carga de comunicación presente para cada nodo, "explicó Cristo.
El software dentro del rango MPI explota el paralelismo de subprocesos disponible en los nodos Xeon Phi. El paralelismo de subprocesos se refiere a la ejecución simultánea de múltiples procesos, o hilos, que siguen las mismas instrucciones mientras comparten algunos recursos informáticos. Con el software optimizado, el equipo pudo crear múltiples canales de comunicación en un solo rango e impulsar estos canales usando diferentes hilos.
El software MPI se configuró ahora para que las aplicaciones científicas se ejecuten más rápidamente y aprovechen al máximo el hardware de comunicaciones Intel Omni-Path. Pero después de implementar el software, los miembros del equipo encontraron otro desafío:en cada carrera, algunos nodos inevitablemente se comunicarían lentamente y frenarían a los demás.
Ilustración bidimensional del paralelismo roscado. Clave:las líneas verdes separan los nodos informáticos físicos; las líneas negras separan los rangos de MPI; las líneas rojas son los contextos de comunicación, con las flechas que indican la comunicación entre los nodos o la copia de memoria dentro de un nodo a través del hardware Intel Omni-Path. Crédito:Laboratorio Nacional Brookhaven
Siguieron este problema hasta la forma en que Linux, el sistema operativo utilizado por la mayoría de las plataformas HPC, administra la memoria. En su modo predeterminado, Linux divide la memoria en pequeños trozos llamados páginas. Al reconfigurar Linux para usar páginas de memoria grandes ("enormes"), resolvieron el problema. Aumentar el tamaño de la página significa que se necesitan menos páginas para asignar el espacio de direcciones virtuales que utiliza una aplicación. Como resultado, se puede acceder a la memoria mucho más rápidamente.
Con las mejoras de software, Los miembros del equipo analizaron el rendimiento de la arquitectura Intel Omni-Path y los nodos de computación del procesador Intel Xeon Phi instalados en el clúster "Diamond" de doble carril de Intel y el clúster de carril único de investigación distribuida mediante computación avanzada (DiRAC) en el Reino Unido. Para su análisis, utilizaron dos clases diferentes de aplicaciones científicas:física de partículas y aprendizaje automático. Para ambos códigos de aplicación, lograron un rendimiento casi a la velocidad del cable:la tasa máxima teórica de transferencia de datos. Esta mejora representa un aumento en el rendimiento de la red que es entre cuatro y diez veces mayor que el de los códigos originales.
"Debido a la estrecha colaboración entre Brookhaven, Edimburgo, e Intel, estas optimizaciones se pusieron a disposición en todo el mundo en una nueva versión de la implementación Intel Omni-Path MPI y un protocolo de mejores prácticas para configurar la administración de memoria de Linux, "dijo Cristo." El factor cinco de aceleración en la ejecución del código de física en la computadora Xeon Phi en Brookhaven Lab, y en el nuevo, de la Universidad de Edimburgo, una computadora "hipercubo" Hewlett Packard Enterprise de 800 nodos aún más grande, ahora se está utilizando bien en estudios en curso sobre cuestiones fundamentales de la física de partículas ".