Según la Organización Mundial de la Salud, los deslizamientos de tierra están más extendidos que cualquier otro evento geológico. Crédito:NASA
Los estudiantes graduados de la Universidad de Columbia Británica han entrenado computadoras para "leer" artículos de noticias sobre deslizamientos de tierra en Reddit para reforzar una base de datos de la NASA, lo que podría mejorar las predicciones de cuándo y dónde ocurrirán estos desastres naturales.
Para su proyecto final de Maestría en Ciencias de la Información en Lingüística Computacional, Badr Jaidi y su equipo, el grupo Social Landslides, entrenaron computadoras para extraer automáticamente información útil de artículos de noticias relevantes sobre deslizamientos de tierra que se publicaron en Reddit. En esta sesión de preguntas y respuestas, analiza cómo esta herramienta podría terminar salvando vidas.
¿Por qué necesitamos esta herramienta?
Según la Organización Mundial de la Salud, los deslizamientos de tierra están más extendidos que cualquier otro evento geológico. Son tan destructivos, y no tenemos muchos datos sobre ellos. Cuantos más datos precisos tenga sobre deslizamientos de tierra, más será posible predecir con precisión qué lugares tienen un mayor riesgo, lo que en última instancia podría salvar vidas.
La NASA recopila dicha información en una base de datos pública llamada Cooperative Open Online Repository, o COOLR, y la usa para predecir cuándo y dónde ocurrirán los deslizamientos de tierra. Pero la gente ha tenido que enviar manualmente información abrumadora o buscar artículos de noticias y datos uno por uno, lo cual es bastante tedioso. Nuestra herramienta automatiza ese proceso, completando en minutos lo que antes podría haber tomado meses.
Eso liberaría recursos para investigaciones más importantes y también significaría que obtendremos más datos, más rápido, lo que podría mejorar la investigación en deslizamientos de tierra en general, así como las predicciones de deslizamientos de tierra de la NASA.
¿Cómo funciona?
Guiados por BGC Engineering Inc. y la NASA para nuestro proyecto final, nuestro equipo diseñó una herramienta que escanea Reddit en busca de artículos de noticias sobre deslizamientos de tierra dentro de un período de tiempo determinado y luego extrae información relevante.
Primero, un modelo de computadora determina si el artículo es realmente sobre deslizamientos de tierra, en lugar de, por ejemplo, una elección en la que alguien gana "por un deslizamiento de tierra" o, como también encontramos, artículos sobre Pokémon con técnicas terrestres como "deslizamiento de rocas".
Luego, entrenamos un modelo de procesamiento de lenguaje natural en datos de deslizamiento, enseñándole a reconocer la información que queríamos de un artículo. Este tipo de modelo puede comprender el lenguaje, incluido el análisis de oraciones. Entonces, le daríamos un artículo de noticias y preguntaríamos dónde podría haber ocurrido un deslizamiento de tierra. El modelo predeciría la respuesta según el lenguaje involucrado, por ejemplo, "El derrumbe probablemente ocurrió aquí, según esta oración", y le haríamos saber si era correcto o no.
De esta manera, la computadora aprende qué información extraer de forma automática y precisa, incluso cuándo ocurrió un deslizamiento de tierra y dónde, qué lo causó y cuántas muertes hubo.
Todo esto sucede bastante rápido:devuelve los artículos de un mes en aproximadamente 15 minutos, en comparación con revisarlos manualmente para encontrar esa información. Luego, los datos se pueden introducir en COOLR. Esto nos tomó alrededor de dos meses para construir. La NASA está evaluando actualmente si la herramienta se puede ejecutar tal cual o si necesita algunos ajustes para su uso.
¿Se podría usar la herramienta en otros sitios de redes sociales?
Usamos Reddit porque es gratis acceder a su interfaz de programación de aplicaciones (API). Por ejemplo, la API de Twitter tiene muchas restricciones y su acceso es bastante costoso. Además, la cantidad de datos sería enorme.
Queríamos comenzar de a poco y demostrar que funciona con Reddit. Pero podría expandirse a plataformas y fuentes más grandes, siempre que tengan artículos de noticias. Incluso podría expandir la herramienta para usarla en otros desastres, como terremotos, usando la misma metodología entrenando los modelos con conjuntos de datos similares.
Mejorar el modelo y agregar más fuentes de las que se pueden extraer deslizamientos de tierra que no sean Reddit ayudaría a la NASA a tener más puntos de datos, más rápido. Mantendré mi ojo en ello. Investigadores actualizan la nomenclatura internacional de la geometría de deslizamientos de tierra