El Observatorio Vera Rubin albergará la Cámara LSST, que recopilará datos sobre 37 mil millones de galaxias y estrellas en el transcurso de 10 años. Los científicos están desarrollando programas de aprendizaje automático para analizar la avalancha de datos. Crédito:M. Park / Inigo Films / LSST / AURA / NSF
Mirando el cielo nocturno en una zona rural, probablemente verá la luna brillante rodeada de estrellas. Si tienes suerte, es posible que detectes lo más lejano visible a simple vista:la galaxia de Andrómeda. Es el vecino más cercano a nuestra galaxia la vía Láctea. Pero esa es solo la fracción más pequeña de lo que hay. Cuando la cámara Legacy Survey of Space and Time (LSST) del Departamento de Energía (DOE) en el Observatorio Vera Rubin de la National Science Foundation se encienda en 2022, tomará fotos de 37 mil millones de galaxias y estrellas en el transcurso de una década.
La salida de este enorme telescopio inundará a los investigadores con datos. En esos 10 años, la cámara LSST tomará 2, 000 fotos por cada parche del cielo del sur que cubre. Cada imagen puede contener hasta un millón de objetos.
"En cuanto a la escala de los datos, la cantidad de datos, la complejidad de los datos, están mucho más allá de cualquiera de los conjuntos de datos actuales que tenemos, "dijo Rachel Mandelbaum, profesor de la Universidad Carnegie Mellon y vocero de LSST Dark Energy Science Collaboration. "Esto abre una gran cantidad de espacio de descubrimiento".
Los científicos no están construyendo la cámara LSST solo para tomar fotografías bonitas. Quieren identificarse clasificar por categorías, y medir los objetos celestes que pueden revelar información sobre la estructura misma del universo. Comprender la energía oscura y otros misterios cosmológicos requiere datos sobre supernovas y galaxias. Los investigadores pueden incluso encontrar clases de objetos completamente nuevas.
"Habrá algunos objetos que nunca antes habíamos visto porque ese es el punto de un nuevo descubrimiento, "dijo Renée Hložek, profesor asistente de astrofísica en la Universidad de Toronto, que trabaja con LSST Dark Energy Science Collaboration. "Encontraremos un montón de lo que llamamos bichos raros, o anomalías ".
El gran volumen y la extrañeza de los datos dificultarán su análisis. Mientras que un observador de estrellas nuevo en un área puede salir al campo con un experto local, los científicos no tienen una guía de este tipo sobre nuevas piezas del universo. Entonces ellos están haciendo los suyos. Con más precisión, están creando muchas guías diferentes que pueden ayudarlos a identificar y categorizar estos objetos. Los astrofísicos apoyados por la Oficina de Ciencias del DOE están desarrollando estas guías en forma de modelos informáticos que se basan en el aprendizaje automático para examinar los datos del LSST. El aprendizaje automático es un proceso en el que un programa de computadora aprende a lo largo del tiempo sobre las relaciones en un conjunto de datos.
Programas informáticos que aprenden
Procesar datos rápidamente es una necesidad para los científicos de Dark Energy Science Collaboration. Los científicos necesitan saber que la cámara está apuntando exactamente al lugar correcto y tomando datos correctamente cada vez. Este procesamiento rápido también les ayuda a saber si algo ha cambiado en esa parte del cielo desde la última vez que tomaron fotos. Restar la foto actual de las anteriores les muestra si hay un signo de un objeto o fenómeno celeste interesante.
También necesitan combinar muchas fotos juntas de una manera precisa y utilizable. Este proyecto busca en las profundidades del universo para capturar imágenes de algunas de las estrellas y galaxias más débiles. También tomará fotos en condiciones atmosféricas menos que ideales. Para compensar, los científicos necesitan programas que puedan combinar imágenes para mejorar la claridad.
El aprendizaje automático puede abordar estos desafíos además de manejar la gran cantidad de datos. A medida que estos programas analizan más datos, cuanto más precisos se vuelven. Al igual que una persona que aprende a identificar una constelación, obtienen un mejor juicio con el tiempo.
"Muchos científicos consideran el aprendizaje automático como la opción más prometedora para clasificar las fuentes según las mediciones fotométricas (mediciones de la intensidad de la luz), "dijo Eve Kovacs, físico del Laboratorio Nacional Argonne del DOE.
Pero los programas de aprendizaje automático deben aprender por sí mismos antes de poder abordar una pila de datos nuevos. Hay dos formas principales de "entrenar" un programa de aprendizaje automático:sin supervisión y supervisado.
El aprendizaje automático sin supervisión es como alguien que se enseña a sí mismo sobre las estrellas solo con sus observaciones nocturnas. El programa se entrena a sí mismo con datos no etiquetados. Si bien el aprendizaje automático sin supervisión puede agrupar imágenes e identificar valores atípicos, no puede categorizarlos sin una guía de algún tipo.
El aprendizaje automático supervisado es como un novato que se basa en una guía. Los investigadores lo alimentan con un conjunto masivo de datos que están etiquetados con las clases de cada objeto. Al examinar los datos una y otra vez, el programa aprende la relación entre la observación y las etiquetas. Esta técnica es especialmente útil para clasificar objetos en grupos conocidos.
En algunos casos, Los investigadores también alimentan el programa con un conjunto específico de características para buscar, como brillo, forma, o color. Proporcionan orientación sobre la importancia de cada característica en comparación con las demás. En otros programas, el programa de aprendizaje automático descubre las características relevantes por sí mismo.
Sin embargo, la precisión del aprendizaje automático supervisado depende de tener un buen conjunto de entrenamiento, con toda la diversidad y variabilidad de uno real. Para fotos de la cámara LSST, esa variabilidad podría incluir rayas de satélites que se mueven por el cielo. El etiquetado también debe ser extremadamente preciso.
"Tenemos que poner tanta física como podamos en los conjuntos de entrenamiento, ", dijo Mandelbaum." No nos quita la carga de entender la física. Simplemente lo mueve a una parte diferente del problema ".
Marcadores de millas en la autopista espacial
Algunos de los objetos más interesantes del universo no se quedan por mucho tiempo. Los objetos transitorios parecen muy brillantes, se desvanecen durante un período de tiempo específico, y luego se oscurece. Las supernovas (estrellas que explotan masivamente) son un tipo de objeto transitorio. Los objetos variables cambian de brillo con el tiempo de manera constante. Ciertos tipos de ambos pueden ser "velas estándar, "elementos que los científicos pueden utilizar para medir la distancia a la Tierra, como marcadores de millas en una interestatal. Estas velas estándar proporcionan información sobre el tamaño y la historia del universo.
"Si miras suficientes galaxias en una noche determinada, tienes casi la garantía de descubrir una supernova, "dijo Kovacs.
Para saber si una supernova va a ser útil como vela estándar o no, los científicos necesitan saber de qué tipo es. Las supernovas de tipo Ia pueden ser velas estándar. Al igual que basarse en la experiencia puede decirles a los observadores de estrellas si están mirando a Marte o Venus, un programa de computadora puede usar su entrenamiento para clasificar una supernova a partir de una imagen.
"La pequeña mosca en el ungüento en todo esto es que las supernovas de Tipo Ia no son exactamente velas estándar. Tienen una cierta cantidad de variación, ", dijo Kovacs." Comprender esa variación ... en realidad es la base para hacer que todo esto funcione ".
Kovacs y sus colaboradores crearon un programa que usa los colores de las supernovas para clasificarlas en categorías. Previamente, Los científicos entrenaron algoritmos de aprendizaje automático haciéndoles comparar el brillo de una supernova específica a lo largo del tiempo con un modelo basado en una supernova de Tipo Ia. Pero era probable que los programas clasificaran erróneamente demasiadas supernovas como Tipo Ia. Su equipo adoptó un enfoque diferente. Identificaron un conjunto de 17 características que caracterizan las curvas de luz (variación en el tiempo de la intensidad de la luz) de las supernovas. Usando un conjunto de entrenamiento de varios miles de supernovas simuladas, pudieron lograr clasificaciones que tenían niveles extremadamente altos de precisión.
Averiguar qué tan lejos están los objetos cósmicos de la Tierra es otra área prometedora para el aprendizaje automático. Previamente, los científicos se basaron en telescopios espectroscópicos que utilizan fibra óptica para medir con precisión las distancias de estos objetos. Pero la cámara LSST encontrará más de 1, 000 objetos transitorios por noche. Son demasiados para seguir usando esta técnica. Mandelbaum y su equipo desarrollaron un programa de aprendizaje automático que puede estimar esta distancia con precisión solo a partir de fotos. También puede adaptar e incorporar datos espectroscópicos si está disponible.
Pero las supernovas no son los únicos objetos que pueden usarse como velas estándar. De hecho, Los astrofísicos suelen utilizar otros objetos para calibrar su distancia. Mandelbaum y su equipo utilizaron el aprendizaje automático para encontrar otras posibles velas estándar. Al alimentar los datos del programa sobre muchas estrellas variables, descubrieron que podía idear y aplicar características que identificaran una buena vela estándar sin necesidad de clasificar la estrella primero. Omitir ese paso, que requiere muchas etiquetas, datos categorizados:simplificó el proceso. También ayudó a evitar sesgos o errores de clasificación. El programa produjo una muestra con estrellas que eran velas estándar tan buenas como las cefeidas, una estrella variable útil pero rara. Había otra ventaja:las estrellas de su muestra eran generalmente más brillantes y más fáciles de medir que las cefeidas.
"El aprendizaje automático te ayuda a descubrir estos espacios complicados porque los humanos tienen dificultades para pensar en más de tres dimensiones, "Dijo Kovacs.
Escoger y elegir a nivel galáctico
Si bien las estrellas individuales pueden revelar una gran cantidad de información, a veces necesitas una galaxia entera. Usando una foto sola, es más fácil calcular la distancia de la galaxia anfitriona de una supernova que la propia supernova. Pero los científicos deben elegir la galaxia anfitriona correcta. En el pasado, han hecho este emparejamiento a mano. Pero la cámara LSST va a crear demasiados datos para que los manejen los humanos.
En uno de los proyectos de Kovac, el equipo científico desarrolló un algoritmo que emparejaba correctamente la galaxia anfitriona con la supernova entre el 90 y el 92 por ciento de las veces. No es lo suficientemente preciso. Pero el aprendizaje automático vino al rescate. El equipo desarrolló un programa de aprendizaje automático para decirles qué tan probable era que una clasificación fuera correcta o incorrecta. Identificó del siete al ocho por ciento de la producción original como probablemente incorrecta. Eliminar esos elementos de los datos aumentó la precisión y facilitó el seguimiento manual de las fotos complicadas.
Aprovechando la mente colectiva
Para explorar más a fondo el poder del aprendizaje automático, dos de los grupos científicos de LSST Camera encontraron una forma única de aprovechar la capacidad intelectual de los científicos:organizaron un concurso. Al asociarse con Kaggle, un sitio web para científicos de datos, Apuntaron a no astrónomos especializados en aprendizaje automático para desarrollar programas para clasificar datos futuros de la cámara LSST.
"Si solo habla con las personas que conoce, pierdes esa diversidad de pensamiento de la comunidad en general, "dijo Hložek, que corrió la competencia. "Queríamos que la gente trabajara realmente en conjunto para agrupar sus modelos y sus datos".
En particular, querían que los programas seleccionaran tipos de objetos que los astrofísicos tal vez no hayan visto antes. Le dieron al grupo tres millones de objetos para clasificar en 15 categorías, siendo el 15 'No lo había visto antes'.
"Queremos prepararnos para estar abiertos a ese tipo de trabajo, "Dijo Hložek." ¿Cuáles son las formas en que se puede manifestar la rareza? "
Más de 1, 300 competidores en 1, 000 equipos participaron en el desafío, que finalizó en diciembre de 2018. Ahora, Los investigadores de la cámara LSST están clasificando los códigos para combinarlos en el mejor conjunto posible de programas.
Toda esta actividad ocurre años antes de que la cámara LSST se encienda. Los programas de aprendizaje automático seguramente revelarán aún más una vez que los datos comiencen a fluir. Si bien las computadoras no pueden mirar las estrellas con asombro, nos proporcionarán una visión cada vez más clara de los objetos celestes que nos inspiran tanto asombro.