“Estamos viendo la crisis a medida que ocurre, ”Dijo Prasenjit Mitra. "La mejor fuente para obtener información oportuna durante un desastre son las redes sociales, particularmente microblogs como Twitter. Crédito:Thinkstock
Los datos de Twitter podrían brindar a los equipos de socorro en casos de desastre información en tiempo real para brindar ayuda y salvar vidas. gracias a un nuevo algoritmo desarrollado por un equipo internacional de investigadores.
Un equipo de investigadores de Penn State, el Instituto Indio de Tecnología Kharagpur, y el Qatar Computing Research Institute creó un algoritmo que analiza los datos de Twitter para identificar eventos más pequeños relacionados con desastres, conocidos como subeventos, y generar alta precisión, resúmenes en tiempo real que se pueden utilizar para guiar las actividades de respuesta.
El grupo presentó su documento, "Identificación de eventos secundarios y resumen de información de microblogs durante desastres", hoy (10 de julio) en la 41ª Conferencia del Grupo de Interés Especial sobre Recuperación de Información de la Asociación Internacional de Maquinaria de Computación sobre Investigación y Desarrollo en Recuperación de Información en Ann Arbor. , Michigan.
"Estamos viendo la crisis a medida que ocurre, "dijo Prasenjit Mitra, decano asociado de investigación en la Facultad de Ciencias de la Información y Tecnología de Penn State y colaborador del estudio.
"La mejor fuente para obtener información oportuna durante un desastre son las redes sociales, particularmente microblogs como Twitter, ", dijo Mitra." Los periódicos aún no se han impreso y los blogs aún no se han publicado, por lo que Twitter permite una vista casi en tiempo real de un evento de los afectados por él ".
El análisis de estos datos y su uso para generar informes relacionados con un subtema de un desastre, como daños a la infraestructura o necesidades de refugio, podría ayudar a las organizaciones humanitarias a responder mejor a las distintas necesidades de las personas en un área afectada.
Dado el volumen de datos producidos, La gestión manual de este proceso inmediatamente después de una crisis no siempre es práctica. A menudo, también existe la necesidad de actualizaciones únicas relacionadas con temas particulares dentro y entre organizaciones.
"Varios trabajos sobre resúmenes específicos de desastres en los últimos tiempos propusieron algoritmos que en su mayoría proporcionan un resumen general de todo el evento, "escribieron los investigadores en su artículo". Sin embargo, diferentes partes interesadas como los trabajadores de rescate, agencias gubernamentales, expertos de campo, [y] la gente común tiene diferentes necesidades de información ".
En el estudio, el grupo recopiló más de 2,5 millones de tweets publicados durante tres grandes catástrofes mundiales:el tifón Hagupit que azotó Filipinas en 2014, la inundación de 2014 en Pakistán, y el terremoto de 2015 en Nepal. Luego, voluntarios de la Oficina de las Naciones Unidas para la Coordinación de Asuntos Humanitarios capacitaron un sistema de aprendizaje automático categorizando manualmente los tweets en diferentes sub-eventos, como la comida, medicina e infraestructura.
Una vez que el sistema pueda identificar tweets con un alto nivel de precisión, los investigadores permiten que el sistema categorice grandes cantidades de datos de forma rápida y precisa sin intervención humana. A medida que se desarrollan los eventos, sin embargo, Aparecen nuevas categorías de contenido que requieren que el proceso se reinicie.
"En un cierto punto, hay una deriva en el tema. Los temas cambian de respuesta inmediata, como personas atrapadas, a las consecuencias en curso, como enfermedades o problemas de transporte, "explicó Mitra." Cuando el tema cambia, observamos la precisión de la máquina. Si cae por debajo de cierto umbral, el grupo de trabajo clasifica manualmente más tweets para educar aún más a la máquina ".
Su algoritmo de "detección de eventos SUB basado en analizador de dependencias", conocido como DEPSUB, identificaron pares de sustantivo-verbo que representan subtemas, como "colapso del puente" o "persona atrapada", y los clasificaron según la frecuencia con la que aparecen en los tweets. Luego, crearon un algoritmo para escribir resúmenes sobre el evento general y los subeventos identificados. Finalmente, Los evaluadores humanos clasificaron la utilidad y precisión de los subeventos identificados por DEPSUB y los resúmenes generados automáticamente en comparación con los creados por otros métodos existentes.
Los evaluadores encontraron que tanto DEPSUB como su algoritmo de resumen eran más relevantes, útil y comprensible en comparación con otros algoritmos líderes. En el futuro, los investigadores esperan aplicar su trabajo a situaciones especializadas, como resumir información sobre personas desaparecidas, y extraer información específica de los tweets que podría crear una descripción y visualización más completa de un evento.
"Con un sistema bien entrenado, no es necesaria la intervención humana para categorizar o resumir los datos de Twitter, ", dijo Mitra." Este sistema automatizado es un primer paso para brindar a los trabajadores humanitarios un andamio que pueden perfeccionar para construir un mejor resumen general de un evento, además de tener una visión más ajustada de alguna parte de ese evento más grande ".