Una ilustración artística de una mezcla de procesos gaussianos y un haz de luz o partículas que lo atraviesa. La imagen alude al funcionamiento interno del algoritmo dentro de gpCAM, una herramienta de software desarrollada por investigadores en las instalaciones CAMERA de Berkeley Lab para facilitar el descubrimiento científico autónomo. Crédito:Marcus Noack, Laboratorio de Berkeley
Las instalaciones experimentales de todo el mundo se enfrentan a un desafío:sus instrumentos son cada vez más potentes, lo que lleva a un aumento constante del volumen y la complejidad de los datos científicos que recopilan. Al mismo tiempo, estas herramientas exigen nuevas, algoritmos avanzados para aprovechar estas capacidades y permitir que se planteen y respondan preguntas científicas cada vez más complejas. Por ejemplo, El proyecto ALS-U para actualizar la instalación de fuente de luz avanzada en el Laboratorio Nacional Lawrence Berkeley (Berkeley Lab) dará como resultado una luz de rayos X suave 100 veces más brillante y contará con detectores ultrarrápidos que conducirán a un gran aumento en las tasas de recopilación de datos.
Para aprovechar al máximo los instrumentos e instalaciones modernos, Los investigadores necesitan nuevas formas de disminuir la cantidad de datos necesarios para el descubrimiento científico y abordar las tasas de adquisición de datos que los humanos ya no pueden seguir. Una ruta prometedora se encuentra en un campo emergente conocido como descubrimiento autónomo, donde los algoritmos aprenden de una cantidad comparativamente pequeña de datos de entrada y deciden por sí mismos sobre los siguientes pasos a seguir, permitir que los espacios de parámetros multidimensionales se exploren más rápidamente, eficientemente, y con mínima intervención humana.
"Cada vez más campos experimentales aprovechan esta nueva adquisición de datos óptima y autónoma porque, cuando se viene abajo, siempre se trata de aproximar alguna función, dados datos ruidosos, "dijo Marcus Noack, científico investigador del Centro de Matemáticas Avanzadas para Aplicaciones de Investigación Energética (CAMERA) en Berkeley Lab y autor principal de un nuevo artículo sobre procesos gaussianos para la adquisición autónoma de datos publicado el 28 de julio en Naturaleza Revisiones Física . El documento es la culminación de un esfuerzo multinacional liderado por CAMERA para introducir técnicas innovadoras de descubrimiento autónomo en una amplia comunidad científica.
Los procesos estocásticos toman la iniciativa
En los últimos años, los métodos de descubrimiento autónomos se han vuelto más sofisticados, con procesos estocásticos (por ejemplo, La regresión del proceso gaussiano [GPR]) emerge como el método de elección para dirigir muchas clases de experimentos. El éxito de GPR en los experimentos de dirección se debe a su naturaleza probabilística, lo que nos permite tomar decisiones basadas en la incertidumbre del modelo actual. Esto es lo que se encuentra en el corazón de gpCAM, una herramienta de software desarrollada por CAMERA.
"A diferencia del aprendizaje profundo, Los procesos estocásticos se pueden utilizar para tomar decisiones basadas en conjuntos de datos relativamente pequeños, y proporcionan estimaciones de incertidumbre que pueden optimizar el proceso de aprendizaje, "Dijo Noack.
Si bien los esfuerzos de investigación iniciales de CAMERA se han centrado principalmente en experimentos de líneas de luz de sincrotrón, un número cada vez mayor de científicos de otras disciplinas está viendo ahora las ventajas de incorporar técnicas de descubrimiento autónomo en los flujos de trabajo de sus proyectos experimentales. En abril, un taller sobre descubrimiento autónomo en ciencia e ingeniería patrocinado por CAMERA y presidido por Noack atrajo a cientos de científicos de todo el mundo, reflejando el creciente interés en este campo emergente.
"Todavía estamos en los primeros días con esto, pero se ha avanzado mucho en el último año, "dijo Martin Böhm, un científico de instrumentos en el grupo de espectroscopia del Institut Laue-Langevin en Grenoble, Francia, y coautor del artículo Nature Reviews Physics. "Para espectrometría, por ejemplo, Ofrece una nueva forma de hacer experimentos y permite que los instrumentos hagan el trabajo, lo que se traduce en un ahorro de tiempo para los usuarios ". Otras áreas de aplicación potenciales incluyen la física, Matemáticas, química, biología, ciencia de los Materiales, Estudios ambientales, descubrimiento de medicamento, Ciencias de la Computación, e ingeniería eléctrica.
Múltiples usos emergentes
Por ejemplo, John Thomas, becario de investigación postdoctoral en Molecular Foundry de Berkeley Lab, está utilizando microscopía de sonda de exploración fotoacoplada para comprender las propiedades de los materiales de los sistemas semiconductores de película delgada y ha estado trabajando con gpCAM para mejorar estos esfuerzos.
"Aplicaciones a nanoescala que utilizan inteligencia artificial y algoritmos de aprendizaje automático, específicamente para escanear sistemas de sonda, han sido un interés en el grupo Weber-Bargioni [en la fundición] durante algún tiempo, ", Dijo Thomas." Nos interesamos en el uso de procesos gaussianos hacia el descubrimiento autónomo en el verano de 2020 ".
El grupo completó recientemente una aplicación que hace uso de gpCAM dentro de una interfaz de Python a LabVIEW, dónde, con alguna entrada de usuario para la inicialización, gpCAM impulsa una sonda atómicamente afilada a través de un material bidimensional semiconductor para la recopilación de datos hiperespectrales. Las imágenes obtenidas representan una convolución de información tanto electrónica como topográfica, y la espectroscopia puntual extrae la estructura electrónica local.
"Conducción autónoma de los instrumentos de la sonda de exploración, sin la necesidad de una operación humana constante, puede optimizar el rendimiento de la herramienta para ingenieros y científicos al continuar con los experimentos fuera del horario comercial o al proporcionar rutas para tareas simultáneas dentro de un flujo de trabajo determinado; es decir, la herramienta se puede configurar para una ejecución autónoma mientras que el usuario puede hacer un uso eficiente del tiempo permitido, "Thomas dijo." Como resultado, ahora podemos usar procesos gaussianos para trazar e identificar regiones defectuosas en heteroestructuras 2D con resolución inferior a Ångström ".
Aaron Michelson, un investigador graduado en el grupo Oleg Gang en la Universidad de Columbia que trabaja en el autoensamblaje basado en origami de ADN, recién está comenzando a aplicar gpCAM a su investigación. Para un proyecto, lo está ayudando a él ya sus colegas a investigar la historia del recocido térmico de superredes de origami de ADN a nanoescala; en otro, se está utilizando para extraer grandes conjuntos de datos de experimentos de microscopía de rayos X 2D.
"La nanotecnología de ADN en la búsqueda de material funcional de autoensamblaje a menudo adolece de una capacidad limitada para muestrear el gran espacio de parámetros para la síntesis, ", dijo." O esto requiere que se recopile un gran volumen de datos o una solución más eficiente para la experimentación. El descubrimiento autónomo se puede incorporar directamente tanto en la extracción de grandes conjuntos de datos como en la orientación de nuevos experimentos. Esto permite que el investigador evite tomar más muestras sin pensar y nos pone en el asiento del conductor para tomar decisiones ".
"El trabajo y el liderazgo de Noack han unido a una amplia comunidad interdisciplinaria de codiseño. Este tipo de construcción de comunidad científica está en el corazón de lo que CAMERA intenta hacer, "dijo el director de CAMERA James Sethian, un coautor en el Naturaleza Revisiones Física papel.