Crédito:Instituto de Investigación del Suroeste
Big data se ha convertido en un gran desafío para los científicos espaciales que analizan grandes conjuntos de datos de instrumentación espacial cada vez más poderosa. Para abordar esto, un equipo del Southwest Research Institute ha desarrollado una herramienta de aprendizaje automático para etiquetar de manera eficiente conjuntos de datos grandes y complejos para permitir que los modelos de aprendizaje profundo filtren e identifiquen eventos solares potencialmente peligrosos. La nueva herramienta de etiquetado se puede aplicar o adaptar para abordar otros desafíos que involucran grandes conjuntos de datos.
A medida que los paquetes de instrumentos espaciales recopilan datos cada vez más complejos en volúmenes cada vez mayores, cada vez es más difícil para los científicos procesar y analizar tendencias relevantes. El aprendizaje automático (ML) se está convirtiendo en una herramienta crítica para procesar grandes conjuntos de datos complejos, donde los algoritmos aprenden de los datos existentes para tomar decisiones o predicciones que pueden factorizar más información simultáneamente que los humanos. Sin embargo, para aprovechar las técnicas de ML, los humanos primero deben etiquetar todos los datos, lo que suele ser un esfuerzo monumental.
"Etiquetar datos con anotaciones significativas es un paso crucial del aprendizaje automático supervisado. Sin embargo, etiquetar conjuntos de datos es tedioso y lleva mucho tiempo", dijo el Dr. Subhamoy Chatterjee, investigador postdoctoral en SwRI que se especializa en astronomía solar e instrumentación y autor principal de un artículo sobre estos hallazgos publicados en la revista Nature Astronomy . "Una nueva investigación muestra cómo las redes neuronales convolucionales (CNN), entrenadas en videos astronómicos crudamente etiquetados, pueden aprovecharse para mejorar la calidad y amplitud del etiquetado de datos y reducir la necesidad de intervención humana".
Las técnicas de aprendizaje profundo pueden automatizar el procesamiento e interpretar grandes cantidades de datos complejos mediante la extracción y el aprendizaje de patrones complejos. El equipo de SwRI usó videos del campo magnético solar para identificar áreas donde emergen campos magnéticos fuertes y complejos en la superficie solar, que son el principal precursor de los eventos climáticos espaciales.
"Entrenamos a las CNN usando etiquetas toscas, verificando manualmente solo nuestros desacuerdos con la máquina", dijo el coautor, el Dr. Andrés Muñoz-Jaramillo, físico solar del SwRI con experiencia en aprendizaje automático. "Luego volvimos a entrenar el algoritmo con los datos corregidos y repetimos este proceso hasta que todos estuvimos de acuerdo. Si bien el etiquetado de emergencia de flujo generalmente se realiza manualmente, esta interacción iterativa entre el algoritmo humano y ML reduce la verificación manual en un 50 %".
Los enfoques de etiquetado iterativo, como el aprendizaje activo, pueden ahorrar mucho tiempo, lo que reduce el costo de preparar el aprendizaje automático de big data. Además, al enmascarar gradualmente los videos y buscar el momento en que el algoritmo ML cambia su clasificación, los científicos de SwRI aprovecharon aún más el algoritmo ML entrenado para proporcionar una base de datos aún más rica y útil.
"Creamos un enfoque de aprendizaje profundo de extremo a extremo para clasificar videos de evolución de parches magnéticos sin proporcionar explícitamente imágenes segmentadas, algoritmos de seguimiento u otras características artesanales", dijo el Dr. Derek Lamb de SwRI, coautor especializado en evolución de campos magnéticos en la superficie del sol. "Esta base de datos será fundamental en el desarrollo de nuevas metodologías para pronosticar el surgimiento de regiones complejas que conducen a eventos meteorológicos espaciales, lo que podría aumentar el tiempo de anticipación que tenemos para prepararnos para el clima espacial". El aprendizaje automático reduce radicalmente la carga de trabajo del recuento de células para el diagnóstico de enfermedades