Crédito:CC0 Public Domain
Un sistema basado en algoritmos que identifica pistas lingüísticas reveladoras en noticias falsas podría proporcionar al agregador de noticias y a los sitios de redes sociales como Google News una nueva arma en la lucha contra la desinformación.
Los investigadores de la Universidad de Michigan que desarrollaron el sistema han demostrado que es comparable y, a veces, mejor que los humanos para identificar correctamente las noticias falsas.
En un estudio reciente, encontró con éxito falsificaciones hasta el 76 por ciento de las veces, en comparación con una tasa de éxito humano del 70 por ciento. Además, su enfoque de análisis lingüístico podría utilizarse para identificar artículos de noticias falsos que son demasiado nuevos para ser desacreditados mediante referencias cruzadas de sus hechos con otras historias.
Rada Mihalcea, el profesor de ingeniería y ciencias de la computación de la UM detrás del proyecto, dijo que una solución automatizada podría ser una herramienta importante para los sitios que están luchando para lidiar con una avalancha de noticias falsas, a menudo creado para generar clics o para manipular la opinión pública.
Detectar historias falsas antes de que tengan consecuencias reales puede resultar difícil. como agregadores y los sitios de redes sociales hoy en día dependen en gran medida de editores humanos que a menudo no pueden mantenerse al día con la afluencia de noticias. Además, Las técnicas actuales de desacreditación a menudo dependen de la verificación externa de los hechos. lo que puede resultar difícil con las historias más recientes. A menudo, para cuando se demuestre que una historia es falsa, el daño ya esta hecho.
El análisis lingüístico adopta un enfoque diferente, analizar atributos cuantificables como la estructura gramatical, elección de palabras, puntuación y complejidad. Funciona más rápido que los humanos y se puede utilizar con una variedad de tipos de noticias diferentes.
"Puede imaginar cualquier cantidad de aplicaciones para esto en la parte delantera o trasera de un sitio de noticias o redes sociales, ", Dijo Mihalcea." Podría proporcionar a los usuarios una estimación de la confiabilidad de las historias individuales o de un sitio de noticias completo. O podría ser una primera línea de defensa en el back-end de un sitio de noticias, marcar historias sospechosas para una revisión más detallada. Una tasa de éxito del 76 por ciento deja un margen de error bastante grande, pero aún puede proporcionar información valiosa cuando se usa junto con humanos ".
Los algoritmos lingüísticos que analizan el habla escrita son bastante comunes hoy en día, Dijo Mihalcea. El desafío de construir un detector de noticias falsas no radica en construir el algoritmo en sí, sino en encontrar los datos correctos con los que entrenar ese algoritmo.
Las noticias falsas aparecen y desaparecen rápidamente, lo que dificulta la recolección. También viene en muchos géneros, complicando aún más el proceso de recolección. Noticias satíricas, por ejemplo, es fácil de recolectar, pero su uso de la ironía y el absurdo lo hace menos útil para entrenar un algoritmo para detectar noticias falsas destinadas a inducir a error.
Por último, El equipo de Mihalcea creó sus propios datos, crowdsourcing de un equipo en línea que realizó ingeniería inversa verificadas historias de noticias genuinas en falsificaciones. Así es como se crean la mayoría de las noticias falsas, Mihalcea dijo:por personas que las escriben rápidamente a cambio de una recompensa monetaria.
Participantes del estudio, reclutado con la ayuda de Amazon Mechanical Turk, se les pagó para que se quedaran cortos, noticias reales en noticias similares pero falsas, imitando el estilo periodístico de los artículos. Al final del proceso, el equipo de investigación tenía un conjunto de datos de 500 noticias reales y falsas.
Luego alimentaron estos pares de historias etiquetadas a un algoritmo que realizó un análisis lingüístico, la propia enseñanza a distinguir entre noticias reales y falsas. Finalmente, el equipo convirtió los algoritmos en un conjunto de datos de noticias reales y falsas extraídas directamente de la web, neto de la tasa de éxito del 76 por ciento.
Los detalles del nuevo sistema y el conjunto de datos que el equipo usó para construirlo están disponibles gratuitamente. y Mihalcea dice que podrían ser utilizados por sitios de noticias u otras entidades para construir sus propios sistemas de detección de noticias falsas. Ella dice que los sistemas futuros podrían perfeccionarse aún más incorporando metadatos como los enlaces y comentarios asociados con una determinada noticia en línea.
El 24 de agosto se presentará un documento que detalla el sistema en la 27a Conferencia Internacional de Lingüística Computacional en Santa Fe. N.M. Mihalcea trabajó con la científica investigadora asistente de ingeniería y ciencias de la computación de la UM Verónica Pérez-Rosas, el investigador en psicología Bennett Kleinberg de la Universidad de Amsterdam y la estudiante universitaria de la UM Alexandra Lefevre.
El documento se titula "Detección automática de noticias falsas".