Un sistema de aprendizaje automático tiene como objetivo determinar si un medio de comunicación es preciso o parcial. Crédito:dominio público
Últimamente, el mundo de la verificación de datos ha estado en una pequeña crisis. Sitios como Politifact y Snopes se han centrado tradicionalmente en afirmaciones específicas, lo cual es admirable pero tedioso, para cuando hayan logrado verificar o desacreditar un hecho, es muy probable que ya haya viajado por todo el mundo y haya regresado.
Las empresas de redes sociales también han tenido resultados mixtos que limitan la difusión de propaganda y desinformación:Facebook planea tener 20, 000 moderadores humanos para fin de año, y está gastando muchos millones en desarrollar sus propios algoritmos de detección de noticias falsas.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) y el Instituto de Investigación de Computación de Qatar (QCRI) creen que el mejor enfoque es centrarse no en la objetividad de las afirmaciones individuales, sino en las propias fuentes de noticias. Usando esta tachuela, han demostrado un nuevo sistema que utiliza el aprendizaje automático para determinar si una fuente es precisa o políticamente sesgada.
"Si un sitio web ha publicado noticias falsas anteriormente, hay muchas posibilidades de que lo vuelvan a hacer, "dice el asociado postdoctoral Ramy Baly, autor principal de un nuevo artículo sobre el sistema. "Al extraer automáticamente los datos de estos sitios, la esperanza es que nuestro sistema pueda ayudar a determinar cuáles pueden hacerlo en primer lugar ".
Baly dice que el sistema solo necesita alrededor de 150 artículos para detectar de manera confiable si una fuente de noticias es confiable, lo que significa que un enfoque como el de ellos podría usarse para ayudar a eliminar los medios de noticias falsas antes de que las historias se difundan demasiado.
El sistema es una colaboración entre científicos informáticos del MIT CSAIL y QCRI, que forma parte de la Universidad Hamad Bin Khalifa en Qatar. Los investigadores primero tomaron datos de Media Bias / Fact Check (MBFC), un sitio web con verificadores de datos humanos que analizan la precisión y los sesgos de más de 2, 000 sitios de noticias, desde MSNBC y Fox News hasta granjas de contenido de bajo tráfico.
Luego, enviaron esos datos a un algoritmo de aprendizaje automático llamado clasificador de máquina de vectores de soporte (SVM), y lo programó para clasificar los sitios de noticias de la misma manera que MBFC. Cuando se le da un nuevo medio de noticias, el sistema tenía una precisión del 65 por ciento en la detección de si tiene un nivel alto, nivel bajo o medio de "facticidad, "y aproximadamente un 70 por ciento de precisión para detectar si se inclina hacia la izquierda, de derecha o moderada.
El equipo determinó que las formas más confiables de detectar tanto noticias falsas como informes sesgados eran observar las características lingüísticas comunes en las historias de la fuente, incluido el sentimiento, complejidad y estructura.
Por ejemplo, Se encontró que los medios de noticias falsas eran más propensos a usar un lenguaje hiperbólico, subjetivo, y emocional. En términos de sesgo, los puntos de venta de izquierda tenían más probabilidades de tener un lenguaje relacionado con los conceptos de daño / cuidado y equidad / reciprocidad, en comparación con otras cualidades como la lealtad, autoridad y santidad. (Estas cualidades representan los 5 "fundamentos morales, "una teoría popular en psicología social.)
El coautor Preslav Nakov dice que el sistema también encontró correlaciones con la página de Wikipedia de un medio, que evaluó por su extensión general (más largo es más creíble), así como palabras clave como "extremo" o "teoría de la conspiración". Incluso encontró correlaciones con la estructura de texto de las URL de una fuente:aquellas que tenían muchos caracteres especiales y subdirectorios complicados, por ejemplo, se asociaron con fuentes menos confiables.
"Dado que es mucho más fácil obtener información real sobre las fuentes [que sobre los artículos], este método es capaz de proporcionar predicciones directas y precisas sobre el tipo de contenido distribuido por estas fuentes, "dice Sibel Adali, profesor de informática en el Instituto Politécnico Rensselaer que no participó en el proyecto.
Nakov advierte rápidamente que el sistema aún es un trabajo en progreso, y eso, incluso con mejoras en la precisión, funcionaría mejor junto con los verificadores de datos tradicionales.
"Si los medios informan de manera diferente sobre un tema en particular, un sitio como Politifact podría mirar instantáneamente nuestros puntajes de 'noticias falsas' para esos medios para determinar cuánta validez otorgar a diferentes perspectivas, "dice Nakov, un científico senior en QCRI.
Baly y Nakov coescribieron el nuevo artículo con el científico investigador senior del MIT James Glass junto con los estudiantes de maestría Dimitar Alexandrov y Georgi Karadzhov de la Universidad de Sofía. El equipo presentará el trabajo a finales de este mes en la conferencia Empirical Methods in Natural Language Processing (EMNLP) de 2018 en Bruselas. Bélgica.
Los investigadores también crearon un nuevo conjunto de datos de código abierto de más de 1, 000 fuentes de noticias, anotado con puntajes de objetividad y sesgo, la base de datos más grande del mundo en su tipo. Como próximos pasos, el equipo explorará si el sistema de formación en inglés se puede adaptar a otros idiomas, así como ir más allá del sesgo tradicional de izquierda / derecha para explorar los sesgos específicos de la región (como la división del mundo musulmán entre religiosos y seculares).
"Esta dirección de la investigación puede arrojar luz sobre el aspecto de los sitios web no confiables y el tipo de contenido que tienden a compartir. que sería muy útil tanto para los diseñadores web como para el público en general, "dice Andreas Vlachos, profesor titular de la Universidad de Cambridge que no participó en el proyecto.
Nakov dice que QCRI también tiene planes de implementar una aplicación que ayude a los usuarios a salir de sus burbujas políticas. responder a noticias específicas ofreciendo a los usuarios una colección de artículos que abarcan el espectro político.
"Es interesante pensar en nuevas formas de presentar las noticias a las personas, ", dice Nakov." Herramientas como esta podrían ayudar a las personas a pensar un poco más en los problemas y explorar otras perspectivas que de otro modo no hubieran considerado ".