Una interpretación artística de la baja frecuencia del SKA, antenas en forma de cono en Australia Occidental. Crédito:Oficina de Proyectos SKA
Durante casi tres décadas, científicos e ingenieros de todo el mundo han trabajado en Square Kilometer Array (SKA), un proyecto centrado en el diseño y construcción del radiotelescopio más grande del mundo. Aunque el SKA recopilará enormes cantidades de datos astronómicos precisos en un tiempo récord, Los avances científicos solo serán posibles con sistemas capaces de procesar esos datos de manera eficiente.
Debido a que la construcción del SKA no está programada para comenzar hasta 2021, los investigadores no pueden recopilar suficientes datos de observación para practicar el análisis de las enormes cantidades que los expertos anticipan que producirá el telescopio. En lugar de, un equipo del Centro Internacional de Investigación en Radioastronomía (ICRAR) en Australia, el Laboratorio Nacional Oak Ridge (ORNL) del Departamento de Energía (DOE) en los Estados Unidos, y el Observatorio Astronómico de Shanghai (SHAO) en China utilizaron recientemente Summit, la supercomputadora más poderosa del mundo, para simular la salida esperada del SKA. Summit está ubicado en Oak Ridge Leadership Computing Facility, una instalación para usuarios de la Oficina de Ciencias del DOE en ORNL.
"La supercomputadora Summit brindó una oportunidad única para probar un flujo de datos SKA simple a la escala que esperamos del conjunto de telescopios, "dijo Andreas Wicenec, director de Astronomía Intensiva de Datos en ICRAR.
Para procesar los datos simulados, el equipo se basó en el Sistema IO Adaptable (ADIOS) desarrollado por ORNL, un marco de entrada / salida (E / S) de código abierto dirigido por Scott Klasky de ORNL, quien también lidera el grupo de datos científicos del laboratorio. ADIOS está diseñado para acelerar las simulaciones aumentando la eficiencia de las operaciones de E / S y para facilitar la transferencia de datos entre sistemas informáticos de alto rendimiento y otras instalaciones. que de otro modo sería una tarea compleja y que requeriría mucho tiempo.
La simulación SKA en Summit marca la primera vez que se procesan datos de radioastronomía a una escala tan grande y demuestra que los científicos tienen la experiencia, herramientas de software, y recursos informáticos que serán necesarios para procesar y comprender datos reales del SKA.
"El grupo de datos científicos se dedica a investigar la tecnología de próxima generación que se puede desarrollar e implementar para las aplicaciones científicamente más exigentes en las computadoras más rápidas del mundo, ", Dijo Klasky." Estoy orgulloso de todo el arduo trabajo que el equipo de ADIOS y los científicos de SKA han hecho con ICRAR, ORNL, y SHAO ".
Usando dos tipos de receptores de radio, el telescopio detectará ondas de luz de radio que emanan de galaxias, los alrededores de los agujeros negros, y otros objetos de interés en el espacio exterior para ayudar a los astrónomos a responder preguntas fundamentales sobre el universo. Estudiando a estos débiles las ondas esquivas requieren un ejército de antenas.
La primera fase del SKA contará con más de 130, 000 de baja frecuencia, antenas en forma de cono ubicadas en Australia Occidental y alrededor de 200 frecuencias más altas, antenas en forma de plato ubicadas en Sudáfrica. El equipo del proyecto internacional finalmente gestionará cerca de un millón de antenas para realizar estudios sin precedentes de fenómenos astronómicos.
Para emular la parte de Australia Occidental del SKA, los investigadores ejecutaron dos modelos en Summit, uno del conjunto de antenas y otro del universo temprano, a través de un simulador de software diseñado por científicos de la Universidad de Oxford que imita la recopilación de datos de SKA. Las simulaciones generaron 2,6 petabytes de datos a 247 gigabytes por segundo.
"Generar una cantidad tan grande de datos con el simulador de matriz de antenas requiere mucha energía y miles de unidades de procesamiento de gráficos para funcionar correctamente, ", dijo el ingeniero de software de ORNL, Ruonan Wang." Summit es probablemente la única computadora en el mundo que puede hacer esto ".
Aunque el simulador normalmente se ejecuta en una sola computadora, el equipo utilizó una herramienta de gestión de flujo de trabajo especializada que Wang ayudó a desarrollar ICRAR llamada Motor de gráfico de flujo activado por datos (DALiuGE) para escalar eficientemente la capacidad de modelado hasta 4, 560 nodos de cómputo en Summit. DALiuGE tiene tolerancia a fallas incorporada, asegurándose de que los errores menores no obstaculicen el flujo de trabajo.
"El problema con los recursos tradicionales es que un problema puede hacer que todo el trabajo se derrumbe, ", Dijo Wang. Wang obtuvo su doctorado en la Universidad de Australia Occidental, que gestiona ICRAR junto con Curtin University.
La intensa afluencia de datos de las simulaciones de matrices resultó en un cuello de botella en el rendimiento, que el equipo resolvió reduciendo, Procesando, y almacenar los datos usando ADIOS. Los investigadores suelen conectar ADIOS directamente al subsistema de E / S de una aplicación determinada, pero el software inusualmente complicado del simulador significó que el equipo tuvo que personalizar un módulo enchufable para hacer compatibles los dos recursos.
"Esto fue mucho más complejo que una aplicación normal, "Dijo Wang.
Wang comenzó a trabajar en ADIOS1, la primera iteración de la herramienta, Hace 6 años durante su etapa en ICRAR. Ahora, se desempeña como uno de los principales desarrolladores de la última versión, ADIOS2. Su equipo tiene como objetivo posicionar a ADIOS como un recurso de almacenamiento superior para la próxima generación de datos astronómicos y la solución de E / S predeterminada para futuros telescopios más allá incluso del gigantesco alcance de SKA.
"Cuanto más rápido procesemos los datos, cuanto mejor podamos entender el universo, " él dijo.