Crédito:Universidad de California - Riverside
En febrero, el Departamento de Justicia acusó a 13 rusos de robar la identidad de ciudadanos estadounidenses y difundir "noticias falsas" con la intención de subvertir las últimas elecciones presidenciales estadounidenses. El caso aún se está desarrollando, y puede hacerlo durante años. Mientras tanto, Los investigadores de la UCR han creado una solución basada en tecnología para la difusión de información errónea maliciosa.
Laboratorio de datos de aspectos múltiples de la UCR, dirigido por Evangelos E. Papalexakis, profesor asistente en el departamento de Informática e Ingeniería, está desarrollando técnicas novedosas de ciencia de datos para abordar una variedad de problemas en el análisis de redes sociales, con fondos de Naval Sea Systems Command, Consorcio de Educación en Ingeniería Naval, la Fundación Nacional de Ciencias, y Adobe.
Los investigadores están construyendo algoritmos para discernir patrones que indiquen "noticias falsas". Por extrapolación, y comandos insertados en los sistemas de gestión de contenido de los editores, estos elementos se pueden quitar antes de que se activen y causen estragos. Crucialmente, el cálculo de la UCR puede registrar la "huella" de dichos puestos para respaldar los enjuiciamientos.
El último artículo académico de Papalexakis sobre este trabajo:"Identificación no supervisada basada en contenido de artículos de noticias falsos con conjuntos de descomposición de tensor, "coescrito con el asistente de investigación graduado Seyed Mehdi Hosseini Motlagh, fue presentado, y ganó el "premio al mejor papel, "en el reciente taller MIS2:Minería de información errónea y mala conducta en la Web, parte de WSDM 2018 (11th ACM International Conference on Web Search and Data Mining).
"Estudios anteriores han proporcionado información útil sobre la propagación de un artículo en una red social. Sin embargo, la detección basada únicamente en esto plantea el riesgo de que un artículo de noticias falso 'infecte' a varios usuarios de las redes sociales antes de ser detectado, "Papalexakis dijo." En cambio, nuestro trabajo tiene como objetivo la detección temprana de dichos artículos, especialmente en los casos en los que no tenemos conocimiento externo sobre la validez y veracidad de cualquier artículo ".
El monitoreo de la red humana se basa en una combinación de sentido común y experiencia para saber si algo es legítimo. Por ejemplo, los moderadores comprueban si el título está en MAYÚSCULAS (código de cultura digital para "gritar"), utilizar palabras clave conocidas en el lenguaje de los delitos de odio, y busque la falta de fuentes verificadas de afirmaciones falsas.
Pero, ¿cómo se le enseña a una computadora que estos atributos triangulados a menudo indican "noticias falsas"?
La comprensión basada en máquinas se basa exclusivamente en conceptos matemáticos, por lo que Papalexakis y sus investigadores utilizan lo que se llama "Datos de múltiples aspectos". Simplemente pon, Imagine una agrupación social en la que todos los que participan en la interacción tienen muchas formas de conectarse (es decir, teléfono, texto, video, mensaje instantáneo, publicaciones en redes sociales). El laboratorio de datos de aspectos múltiples luego registra, examina, categoriza y modela todas estas entradas, basado en lo que se conoce como "descomposiciones tensoriales". Un "tensor" en la ciencia de datos significa una estructura multidimensional, como un cubo. Todos los aspectos múltiples se capturan digitalmente como cubos multidimensionales para que el sistema pueda investigar y "comprender" lo que realmente está sucediendo y si las noticias son falsas. o no.
"Las técnicas de descomposición de tensores que desarrollamos son capaces de capturar patrones matizados que identifican con éxito diferentes categorías de noticias falsas, sin utilizar ningún conocimiento externo sobre la validez de ningún artículo en particular ", dijo Papalexakis.
Aprovechando la diversidad de todos los aspectos de los datos, el sistema UCR proporciona un resultado más preciso que las investigaciones publicadas anteriormente en este campo. En su papel los autores ilustran cómo compilan su algoritmo, luego publique los resultados de varios experimentos, demostrando que el algoritmo propuesto identificó hasta el 80 por ciento de las noticias falsas.
La industria ha tomado nota. Papalexakis dijo que busca activamente colaboraciones con los principales gigantes tecnológicos.