Crédito:Greg Stewart / SLAC National Accelerator Laboratory
Cuando se completen las actualizaciones al láser de rayos X en el Laboratorio del Acelerador Nacional SLAC del Departamento de Energía, la nueva y poderosa máquina capturará hasta 1 terabyte de datos por segundo; eso es una velocidad de datos equivalente a transmitir alrededor de mil películas de larga duración en solo un segundo, y analizar cada fotograma de cada película a medida que avanzan en este modo de avance súper rápido.
Los expertos en datos del laboratorio están encontrando formas de manejar esta enorme cantidad de información a medida que las actualizaciones de la fuente de luz coherente Linac (LCLS) se pongan en funcionamiento durante los próximos años.
LCLS acelera los electrones a casi la velocidad de la luz para generar haces de rayos X extremadamente brillantes. Esos rayos X sondean una muestra como una proteína o un material cuántico, y un detector captura una serie de imágenes que revelan el movimiento atómico de la muestra en tiempo real. Al unir estas imágenes, farmacia, biólogos, y materiales, los científicos pueden crear películas moleculares de eventos como cómo las plantas absorben la luz solar, o cómo nuestros medicamentos ayudan a combatir las enfermedades.
A medida que se actualiza LCLS, los científicos están pasando de 120 pulsos por segundo a hasta 1 millón de pulsos por segundo. Eso creará un 10, Haz de rayos X 000 veces más brillante que permitirá nuevos estudios de sistemas que antes no se podían estudiar. Pero también supondrá un enorme desafío de datos:el láser de rayos X producirá de cientos a miles de veces más datos por período de tiempo determinado que antes.
Para manejar estos datos, un grupo de científicos dirigido por la Directora de la División de Sistemas de Datos de LCLS, Jana Thayer, está desarrollando nuevas herramientas computacionales, incluyendo algoritmos informáticos y formas de conectarse a supercomputadoras. El grupo de Thayer usa una combinación de computación, análisis de datos y aprendizaje automático para determinar los patrones en imágenes de rayos X y luego encadenar una película molecular.
Siguiendo la corriente
En LCLS, los datos fluyen continuamente. "Cuando los científicos tienen acceso para realizar un experimento, es un día de 12 horas o una noche de 12 horas, y limitado a unos pocos turnos antes de que llegue el siguiente equipo, "dice Ryan Coffee, Científico senior de SLAC. Para hacer un uso eficiente del valioso tiempo experimental, Deben evitarse por completo los cuellos de botella para preservar el flujo de datos y su análisis.
La transmisión y el almacenamiento de datos presenta un desafío importante para los recursos informáticos y de red, y poder monitorear la calidad de los datos casi en tiempo real significa que los datos deben procesarse de inmediato. Un paso vital para que esto sea posible es reducir la cantidad de datos tanto como sea posible antes de almacenarlos para su posterior análisis.
Para habilitar esto, El equipo de Thayer ha implementado la reducción de datos sobre la marcha utilizando varios tipos de compresión para reducir el tamaño de los datos registrados sin afectar la calidad del resultado científico. Una forma de compresión llamado veto, arroja datos no deseados, como imágenes en las que los rayos X no alcanzaron su objetivo. Otro, llamado extracción de características, guarda solo la información que es importante científicamente, como la ubicación y el brillo de un punto en una imagen de rayos X.
"Si guardamos todos los datos sin procesar, como lo hemos estado haciendo hasta ahora, nos costaría un cuarto de billón de dólares al año, ", Dice Thayer." Nuestra misión es descubrir cómo reducir los datos antes de escribirlos. Uno de los realmente bonitos partes innovadoras del nuevo sistema de datos que desarrollamos es la tubería de reducción de datos, que elimina información irrelevante y reduce los datos que deben transferirse y almacenarse ".
El café dice "Entonces ahorras mucho en energía, pero mas importante, ahorra en rendimiento. Si tiene que enviar los datos sin procesar a través de la red, vas a abrumarlo por completo tratando de enviar imágenes cada microsegundo ".
El grupo también creó un lugar intermedio para colocar los datos antes de que se almacenen. Thayer explica, "No podemos escribir directamente en el almacenamiento, porque si hay una falla en el sistema, tiene que hacer una pausa y esperar. O si hay un problema en la red, entonces puede perder datos por completo. Entonces, tenemos un búfer pequeño pero confiable en el que podemos escribir; entonces podemos mover los datos a un almacenamiento permanente ".
Impulsando la innovación
Thayer enfatiza que el sistema de datos está construido para proporcionar a los investigadores los resultados de su trabajo tan pronto como el sistema actual. para que obtengan información en tiempo real. También está diseñado para adaptarse a la expansión de la ciencia LCLS durante los próximos 10 años. El gran desafío es mantenerse al día con el enorme salto en la velocidad de datos.
"Si imagina pasar de analizar 120 imágenes por segundo a 1 millón por segundo, requiere mucho más desplazamiento, ", dice." La computación no es mágica, todavía funciona de la misma manera, simplemente aumentamos la cantidad de cerebros que trabajan en cada una de las imágenes ".
Con el respaldo de un premio reciente del DOE, y trabajar con colegas de todo el complejo de laboratorios nacionales del DOE, el equipo también está buscando incorporar inteligencia artificial y técnicas de aprendizaje automático para reducir aún más la cantidad de datos que se procesarán, y marcar características interesantes en los datos a medida que surgen.
Para comprender el desafío de los datos de LCLS, Coffee dibuja una analogía con los autos autónomos:"Deben calcular en tiempo real:no pueden analizar un lote de imágenes recién grabadas y luego decir" Predecimos que debería haber girado a la izquierda en la imagen número 10 ". La velocidad de datos de SLAC es mucho más alto de lo que experimentará cualquiera de estos autos, pero el problema es el mismo:¡los investigadores deben dirigir su experimento para encontrar los destinos más emocionantes! "
Las actualizaciones que impulsan este salto masivo en la velocidad de datos y el rendimiento vendrán en dos fases durante los próximos años, incluyendo LCLS-II y una actualización de alta energía que sigue. El trabajo de los expertos en datos garantizará que los científicos puedan aprovechar al máximo ambos. "En última instancia, tendrá un efecto dramático en el tipo de ciencia que podemos hacer, abriendo oportunidades que hoy no son posibles, "Café dice.