La evolución de alta tecnología de la informática científica. Crédito:Departamento de Energía de EE. UU.
La ciencia siempre se ha basado en una combinación de enfoques para obtener una respuesta o desarrollar una teoría. Las semillas de la teoría de la selección natural de Darwin crecieron bajo una hercúlea agregación de observación, datos, y experimentar. La confirmación más reciente de ondas gravitacionales por el Observatorio de Ondas Gravitacionales del Interferómetro Láser (LIGO) fue una interacción teórica de décadas, experimentar, y computación.
Ciertamente, Esta idea no se perdió en el Laboratorio Nacional Argonne del Departamento de Energía de EE. UU. (DOE), que ha ayudado a avanzar en los límites de las tecnologías informáticas de alto rendimiento a través de Argonne Leadership Computing Facility (ALCF).
Al darse cuenta de la promesa de la computación a exaescala, el ALCF está desarrollando el marco mediante el cual aprovechar esta inmensa potencia informática para una combinación avanzada de simulación, análisis de los datos, y aprendizaje automático. Este esfuerzo, sin duda, replanteará la forma en que se conduce la ciencia, y hacerlo a escala mundial.
Desde que se estableció la ALCF en 2006, los métodos utilizados para recolectar, analizar y emplear datos ha cambiado drásticamente. Donde los datos alguna vez fueron el producto de y limitados por la observación física y el experimento, avances en la alimentación de la instrumentación científica, como líneas de luz, colisionadores, y los telescopios espaciales, solo por nombrar algunos, han aumentado sustancialmente la producción de datos, dando paso a nuevas terminologías, como "big data".
Si bien el método científico permanece intacto y el instinto humano de hacer grandes preguntas todavía impulsa la investigación, La forma en que respondemos a esta nueva ganancia inesperada de información requiere un cambio fundamental en la forma en que utilizamos las tecnologías informáticas emergentes para el análisis y el descubrimiento.
Esta convergencia de simulación, datos, y el aprendizaje está impulsando un ciclo de retroalimentación cada vez más complejo pero lógico.
La mayor capacidad computacional admite simulaciones científicas más grandes que generan conjuntos de datos masivos que se utilizan para alimentar un proceso de aprendizaje automático, cuya salida informa una simulación más detallada y precisa. Esta, también, se ve reforzada por los datos de las observaciones, experimentos etc., para refinar el proceso utilizando enfoques basados en datos.
"Si bien siempre hemos tenido esta tradición de ejecutar simulaciones, Llevamos trabajando de manera incremental durante más de unos años para integrar de manera sólida los datos y el aprendizaje, "dice Michael Papka, Director de ALCF y subdirector adjunto de laboratorio de Informática, Medio Ambiente y Ciencias de la Vida (CELS).
Para avanzar en ese objetivo, la instalación lanzó su Programa de ciencia de datos ALCF en 2016 para explorar y mejorar los métodos computacionales que podrían permitir mejores descubrimientos basados en datos en todas las disciplinas científicas. El ALCF también expandió recientemente su Programa de Ciencias Tempranas Aurora con la adición de 10 nuevos proyectos que ayudarán a preparar la futura supercomputadora de exaescala de la instalación para los enfoques de datos y aprendizaje.
Y a principios de este año, la dirección del CELS anunció la creación de las divisiones de Ciencias Computacionales (CPS) y Ciencia de Datos y Aprendizaje (DSL) para explorar problemas científicos desafiantes a través de modelos y simulación avanzados, y análisis de datos y otros métodos de inteligencia artificial, respectivamente.
"Estos esfuerzos combinados se centrarán en las ciencias del dominio e identificarán problemas importantes que se pueden abordar mediante una combinación de simulación, Ciencia de los datos, y enfoques de aprendizaje automático. En muchos casos, recurriremos a personas con experiencia relevante en múltiples divisiones, "dice el director de CPS Paul Messina.
Ya, esta combinación de programas y entidades está siendo probada y probada a través de estudios que cruzan el espectro científico, desde comprender los orígenes del universo hasta descifrar la conectividad neuronal del cerebro.
Convergencia para un futuro mejor
Los datos siempre han sido un factor clave en la ciencia y sí, es cierto que hay una cantidad exponencialmente mayor que la que había, decir, hace diez años. Pero si bien el tamaño y la complejidad de los datos ahora disponibles plantea desafíos, también brinda oportunidades para nuevos conocimientos.
Sin duda, la investigación de Darwin fue un gran volumen de datos para su época, pero fue la culminación de casi 30 años de minuciosa recopilación y análisis. Podría haber reducido considerablemente el proceso si hubiera tenido acceso a computadoras de alto rendimiento, y técnicas de análisis de datos y aprendizaje automático, como la minería de datos.
"Estas técnicas no cambian fundamentalmente el método científico, pero cambian la escala o la velocidad o el tipo de complejidad con la que puedes lidiar, "señala Rick Stevens, Director de laboratorio asociado del CELS y profesor de la Universidad de Chicago.
Llevar, por ejemplo, investigación de nuevos materiales diseñados para generar energía solar cuando la luz solar atraviesa las ventanas. La tecnología se ha visto obstaculizada por la falta de la molécula de tinte adecuada, cuyo descubrimiento requiere la laboriosa tarea de buscar en montones de literatura química para encontrar moléculas con los parámetros correctos.
La química y física Jacqueline Cole lidera un esfuerzo de colaboración entre Argonne y la Universidad de Cambridge para sacar a la luz tales moléculas. Cole ha desarrollado un proceso de múltiples etapas que pasa por la simulación; extracción de datos, enriquecimiento, y minería; predicción de materiales y validación experimental.
El equipo ejecuta simulaciones a gran escala en moléculas específicas para predecir tintes químicos con propiedades ópticas clave. A partir de estos datos, las moléculas se seleccionan para la síntesis, y los productos químicos resultantes se fabrican en dispositivos para validar sus perspectivas en ventanas que funcionan con energía solar. Los resultados determinan si se requiere más investigación.
"Hay un ciclo de retroalimentación positiva inherente a esto, ", dice." Incluso si el proceso de validación no va bien, todavía puede proporcionar algunas ideas útiles. Podríamos aprender por ejemplo, que necesitamos refinar las relaciones estructura-función de las moléculas para una aplicación particular o agregar un nuevo tipo de datos a los datos existentes ".
Una gran parte del esfuerzo se centró en la construcción de una base de datos de moléculas orgánicas deseables, gran parte de la cual se compiló mediante la extracción de datos de unos 300, 000 artículos de investigación publicados. La investigación fue impulsada por la Iniciativa del genoma de materiales, una iniciativa del gobierno para llevar materiales funcionales al mercado mucho más rápido que las décadas que tomó una vez.
"La ventaja de este proceso es que realmente elimina la antigua curación manual de las bases de datos, que son vidas de trabajo, y reducirlo a unos pocos meses. Por último, unos pocos días, "dice Cole.
Una máquina para unirlos a todos
Ya sea la búsqueda de moléculas de colorante muy específicas o la comprensión de la física de flujo clave para desarrollar palas de turbinas eólicas más eficientes, la fusión y el florecimiento de la simulación, datos, y el aprendizaje solo es posible gracias al desarrollo exponencial y deliberado de sistemas informáticos y de entrega de datos de alto rendimiento.
"Las arquitecturas de supercomputadoras se están estructurando para hacerlas más fáciles de manejar con grandes cantidades de datos y facilitar el aprendizaje, además de las simulaciones tradicionales, "dice Venkat Vishwanath, Liderazgo en ciencias de datos de ALCF. "Y estamos equipando estas máquinas con conductos masivos que nos permiten transmitir grandes cantidades de datos del mundo exterior, como el Gran Colisionador de Hadrones del CERN y nuestra propia Fuente de Fotones Avanzada (APS) y permiten modelos basados en datos ".
Muchas arquitecturas actuales todavía requieren la transferencia de datos de una computadora a otra, de una máquina, cuya única función es la simulación, a otro que sobresale en análisis de datos y / o aprendizaje automático.
En los últimos años, Argonne y ALCF han realizado una sólida inversión en informática de alto rendimiento que los acerca a una máquina totalmente integrada. El proceso se aceleró en 2017, con la introducción del sistema Intel-Cray, Theta que es capaz de combinar ejecuciones de simulación tradicionales y técnicas de aprendizaje automático.
El ALCF ayudará a impulsar la simulación, datos, y aprender a un nuevo nivel en 2021, cuando develan la primera máquina de exaescala de la nación, Aurora. Si bien puede realizar mil millones de billones de cálculos por segundo, su principal ventaja puede ser su capacidad para realizar y hacer converger la simulación, análisis de los datos, y aprendizaje automático bajo una sola capucha. El resultado final permitirá a los investigadores abordar nuevos tipos, así como problemas mucho mayores, y reducir el tiempo de solución.
"Aurora cambiará el juego, ", dice Papka de la ALCF." Estamos trabajando con los proveedores Intel y Cray para asegurar que podamos apoyar la ciencia a través de esta confluencia de simulación, datos, y aprender todo el primer día de la implementación de Aurora ".
Ya sea por Darwin o Turing, ya sea con pizarra o papel cuadriculado, Algunas de las grandes innovaciones científicas del mundo fueron producto de uno o varios individuos decididos que entendieron bien el peso de aplicar enfoques equilibrados y variados para apoyar —o refutar— una hipótesis.
Debido a que la innovación actual está impulsada por la colaboración entre colegas y entre disciplinas, el potencial de descubrimiento a través de la aplicación pragmática de nuevos recursos computacionales, junto con un flujo de datos sin restricciones, tambalea la imaginación.