Crédito:CC0 Public Domain
Los investigadores de Cornell han desarrollado un sistema automatizado que utiliza el aprendizaje automático, análisis de datos y comentarios humanos para verificar automáticamente las afirmaciones estadísticas sobre el nuevo coronavirus.
"CoronaCheck, "basado en la investigación en curso de Immanuel Trummer, profesor asistente de informática, lanzado internacionalmente en marzo y ya se ha utilizado más de 9, 600 veces. La base de datos, ahora disponible en inglés, Francés e italiano:verifica las afirmaciones sobre la propagación del COVID-19 basándose en fuentes confiables como la Organización Mundial de la Salud y los Centros para el Control y la Prevención de Enfermedades.
"Hay demasiada desinformación sobre el coronavirus en la web; es bastante alucinante, actualmente, ", Dijo Trummer." Algunas de estas afirmaciones de información errónea son inofensivas, pero otras, cosas como 'comer plata cura el coronavirus', pueden ser peligrosas ".
El sistema CoronaCheck es una colaboración entre el equipo de Trummer, incluidos los estudiantes de doctorado Georgios Karagiannis y Saehan Jo, y el equipo de Paolo Papotti en Eurecom, una escuela de ingeniería en Biot, Francia.
Debido al gran volumen de información errónea en Internet, y la velocidad a la que se produce y se difunde más información errónea, es imposible que los humanos resuelvan el problema realizando verificaciones manuales de hechos por sí solos. Incluso los enfoques automatizados comunes, que generalmente intentan asignar nuevas afirmaciones a verificaciones de hechos existentes, no puede llevarse a cabo de manera realista a una escala lo suficientemente grande como para abordar el alcance de la información errónea, Trummer dijo.
"Hemos intentado automatizar todo el proceso, desde los datos brutos hasta el texto que queremos verificar, "Dijo Trummer.
CoronaCheck adapta "Scrutinizer, "un sistema que Trummer desarrolló con Eurecom para la Agencia Internacional de Energía en París, una organización no gubernamental, para ayudar a los verificadores de hechos humanos a traducir resúmenes de texto en ecuaciones que la computadora pueda comprender y resolver. Para hacer esto, Scrutinizer emplea el aprendizaje automático y el procesamiento del lenguaje natural, una rama de la inteligencia artificial destinada a descifrar el lenguaje humano, así como grandes conjuntos de datos que ayudan al sistema a descubrir cómo abordar cada nueva afirmación. y comentarios de usuarios humanos.
"Las computadoras tienen dificultades para comprender el lenguaje natural, ", dijo." No podemos pedir directamente a la computadora que verifique si alguna afirmación en una oración es correcta o no. Así que, esencialmente, tenemos que traducir la afirmación de nuestro lenguaje a un lenguaje de consulta que la computadora entienda ".
Por ejemplo, si alguien escribe que el número de casos de coronavirus es mayor en Francia que en Italia, el sistema utiliza una especie de proceso de eliminación para reducir las posibles ecuaciones para representar ese texto. Se basa en sus conjuntos de datos para crear una expresión matemática que pueda comparar la afirmación con los hechos.
Luego, basado en la experiencia, el sistema determina las mejores fuentes para verificar el reclamo, basándose en datos públicos fiables recopilados a diario por la Universidad Johns Hopkins. El modelo de aprendizaje automático del sistema también puede mejorar con el tiempo, aprender a reconocer nuevos tipos de reclamos en función de los comentarios de los usuarios.
"Existe una enorme cantidad de información errónea y el conjunto de afirmaciones que la gente busca es bastante diverso, "Dijo Trummer." Para cualquier afirmación, hay una gran cantidad de posibles expresiones de consulta, y nuestro objetivo es encontrar el adecuado ".
La interfaz de la base de datos se basa en el trabajo relacionado de Trummer, incluido AggChecker, la primera herramienta para verificar automáticamente los resúmenes de texto de los conjuntos de datos consultando una base de datos relacional. AggChecker se presentó en la conferencia anual del Grupo de Interés Especial sobre Gestión de Datos de la Asociación de Maquinaria de Computación en 2019.
Su equipo también ha desarrollado una "Base anti-conocimiento" de errores fácticos comunes de Wikipedia en colaboración con Google NYC. La investigación detrás de CoronaCheck fue financiada en parte por un premio de investigación de la facultad de Google.