Las noticias del vuelo 370 de Malaysia Airlines tomaron prestado un video del vuelo 1549 de US Airways. Crédito:Wen, Su &Yu.
Investigadores de UC Davis han desarrollado recientemente una nueva herramienta basada en aprendizaje automático para verificar rumores multimedia en línea. Su papel prepublicado en arXiv, propone funciones multilingües y multiplataforma para la verificación de rumores, que aprovechan la similitud semántica entre los rumores y la información de otros sitios web. Su método puede combinar información de varios idiomas para obtener una imagen completa de las noticias en línea.
Un número cada vez mayor de personas en todo el mundo está utilizando dispositivos para leer las noticias y conocer lo que está sucediendo en el mundo. Sin embargo, las plataformas de redes sociales no están en gran medida moderadas, dando lugar a la proliferación de noticias falsas, que a menudo va acompañado de contenido multimedia fabricado o descontextualizado. Los rumores falsos pueden difundirse muy rápidamente en línea, causando estragos y confusión entre los lectores, por lo que el desarrollo de herramientas para verificar la autenticidad de la información en línea reviste una importancia apremiante.
"Nuestra investigación se inspira en la creciente popularidad de las noticias falsas adjuntas al contenido multimedia en las redes sociales, "Weiming Wen, uno de los investigadores graduados que realizó el estudio, le dijo a Tech Xplore. "Se trata principalmente de cómo usar técnicas de PNL para verificar rumores con contenido multimedia. La idea básica es resolver el problema a través del aprendizaje automático, extrayendo características específicas de este tipo de rumor y construyendo un modelo para clasificar los rumores como falsos o reales".
La investigación anterior sobre verificación de rumores utilizó contenido multimedia como características de entrada, aprovechar las características forenses de imágenes o videos para determinar si han sido manipulados. Aunque esta imagen presenta resultados mejorados, la mayoría de estos estudios no pudieron utilizar de manera efectiva el contenido multimedia para verificar los rumores en Twitter de manera consistente.
Una posible razón de esto es que a menudo, El contenido multimedia adjunto a las noticias falsas simplemente se toma prestado de eventos auténticos y está alineado semánticamente con el texto que lo acompaña. Esto significa que la imagen en sí es real, pero se coloca en una historia completamente diferente para hacer que el rumor falso sea más creíble.
El flujo de información de nuestra tubería propuesta. TFG representa las funciones multiplataforma en varios idiomas para tweets que aprovechan la información de Google, mientras que TFB es similar pero aprovecha la información de Baidu en su lugar. BFG significa funciones multiplataforma en varios idiomas para que Baidu aproveche la información de Google. Crédito:Wen, Su &Yu.
Los investigadores de UC Davis propusieron una forma alternativa de verificar los rumores que aprovecha el contenido multimedia al encontrar información asociada con él en otras plataformas de noticias.
La mayoría de los conjuntos de datos de verificación de rumores existentes son monolingües, por ejemplo, solo incluye contenido multimedia presentado con texto en inglés o chino. Los investigadores crearon un nuevo cross-lingual, conjunto de datos de verificación de rumores multiplataforma (CCMR), que comprende tres subconjuntos de datos:CCMR Twitter, CCMR Google y CCMR Baidu.
"Cuando decimos rumores multimedia, nos referimos a tweets u otro contenido de redes sociales que no están verificados y tienen imágenes o videos junto con el texto, "Zhou Yu, profesor asistente en UC Davis, quien realizó el estudio, le dijo a Tech Xplore. "El texto y la imagen se consideran dos canales de información diferentes. Aprovechamos la información visual de una manera innovadora, usándolo como pivote para vincular noticias de diferentes plataformas y en diferentes idiomas ".
Las características desarrolladas por los investigadores integran tanto el rumor como los títulos asociados en diferentes páginas web en vectores de 300 dimensiones con una inserción de oraciones multilingüe previamente entrenada. Entrenaron su algoritmo de inserción de oraciones multilingüe en 453, 000 pares de noticias paralelas en inglés y chino, así como microblogs en el conjunto de datos de UM-Corpus. Este algoritmo puede combinar noticias de varios idiomas, lograr una verificación de rumores más eficaz.
"Dado un rumor adjunto a una imagen, Primero buscamos la imagen a través de Google Image para obtener un montón de publicaciones relacionadas, "Wen explicó." Luego extraemos características de este rumor calculando la similitud y la concordancia entre el rumor y las publicaciones buscadas. Finalmente, utilizamos nuestro modelo previamente entrenado para verificar este rumor usando sus características ".
Ejemplo de rumores paralelos en el evento Pig Fish. Crédito:Wen, Su &Yu. Crédito:Wen, Su &Yu.
Cuando se prueba, Los métodos de aprendizaje automático que utilizaron las características multilingües y multiplataforma propuestas por los investigadores lograron resultados de verificación de rumores de última generación. También se encontró que estas características eran compactas y generalizables en todos los idiomas.
"Creo que la parte más significativa de nuestro estudio es que desarrollamos un marco de verificación de rumores que funciona específicamente para rumores multimedia, que es extremadamente común, pero no se ha estudiado a fondo, ", Dijo Wen." Con este marco, podemos verificar de manera eficiente los rumores multimedia de plataformas como Facebook y Twitter ".
Este estudio podría ser un hito importante en el camino hacia el desarrollo de formas efectivas de validar los rumores en línea que van acompañados de contenido multimedia. Es más, el conjunto de datos inglés-chino elaborado por los investigadores podría usarse en investigaciones adicionales que exploren métodos para la verificación de rumores entre idiomas.
"En el futuro, planeamos generar razones para nuestros resultados de verificación sobre rumores multimedia, ", Dijo Wen." Además de clasificar un rumor como falso, también queremos generar automáticamente un motivo, como "esta publicación es falsa porque toma prestada una imagen de otro evento para probar su afirmación, '", Dijo Wen.
© 2018 Tech Xplore