• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  • Mirando bajo el capó de los detectores de noticias falsas

    Crédito:CC0 Public Domain

    Nuevo trabajo de investigadores del MIT bajo el capó de un sistema automatizado de detección de noticias falsas, revelando cómo los modelos de aprendizaje automático detectan diferencias sutiles pero consistentes en el lenguaje de las historias fácticas y falsas. La investigación también subraya cómo los detectores de noticias falsas deben someterse a pruebas más rigurosas para que sean eficaces en aplicaciones del mundo real.

    Popularizado como concepto en los Estados Unidos durante las elecciones presidenciales de 2016, Las noticias falsas son una forma de propaganda creada para engañar a los lectores, para generar visitas en sitios web o dirigir la opinión pública.

    Casi con la misma rapidez con que el problema se generalizó, Los investigadores comenzaron a desarrollar detectores automatizados de noticias falsas, las llamadas redes neuronales que "aprenden" de decenas de datos para reconocer pistas lingüísticas indicativas de artículos falsos. Dados nuevos artículos para evaluar, estas redes pueden, con una precisión bastante alta, separar el hecho de la ficción, en entornos controlados.

    Un problema sin embargo, es el problema de la "caja negra", lo que significa que no se sabe qué patrones lingüísticos analizan las redes durante el entrenamiento. También están capacitados y probados sobre los mismos temas, lo que puede limitar su potencial para generalizar a nuevos temas, una necesidad para analizar noticias en Internet.

    En un artículo presentado en la Conferencia y Taller sobre Sistemas de Procesamiento de Información Neural, los investigadores abordan ambos problemas. Desarrollaron un modelo de aprendizaje profundo que aprende a detectar patrones de lenguaje de noticias reales y falsas. Parte de su trabajo "abre" la caja negra para encontrar las palabras y frases que el modelo captura para hacer sus predicciones.

    Adicionalmente, probaron su modelo en un tema novedoso que no vio en el entrenamiento. Este enfoque clasifica artículos individuales basándose únicamente en patrones de idioma, que representa más de cerca una aplicación del mundo real para lectores de noticias. Los detectores de noticias falsas tradicionales clasifican los artículos en función del texto combinado con la información de la fuente, como una página de Wikipedia o un sitio web.

    "En nuestro caso, queríamos entender cuál era el proceso de decisión del clasificador basado solo en el lenguaje, ya que esto puede proporcionar información sobre el lenguaje de las noticias falsas, "dice el coautor Xavier Boix, un postdoctorado en el laboratorio de Eugene McDermott Profesor Tomaso Poggio en el Centro de Cerebros, Mentes y Máquinas (CBMM) en el Departamento de Ciencias Cerebrales y Cognitivas (BCS).

    "Un problema clave con el aprendizaje automático y la inteligencia artificial es que obtienes una respuesta y no sabes por qué obtuviste esa respuesta. ", dice la estudiante de posgrado y primera autora Nicole O'Brien '17." Mostrar este funcionamiento interno es un primer paso hacia la comprensión de la confiabilidad de los detectores de noticias falsas de aprendizaje profundo ".

    El modelo identifica conjuntos de palabras que tienden a aparecer con mayor frecuencia en noticias reales o falsas, algunas quizás obvias, otros mucho menos. Los resultados, los investigadores dicen, señala diferencias sutiles pero constantes en las noticias falsas, que favorecen las exageraciones y los superlativos, y las noticias reales, que se inclina más hacia elecciones de palabras conservadoras.

    "Las noticias falsas son una amenaza para la democracia, "Dice Boix." En nuestro laboratorio, nuestro objetivo no es solo impulsar la ciencia, sino también utilizar tecnologías para ayudar a la sociedad. ... Sería poderoso tener herramientas para usuarios o empresas que pudieran proporcionar una evaluación de si las noticias son falsas o no ".

    Los otros coautores del artículo son Sophia Latessa, estudiante de pregrado en CBMM; y Georgios Evangelopoulos, un investigador en CBMM, el Instituto McGovern de Investigación del Cerebro, y el Laboratorio de Aprendizaje Computacional y Estadístico.

    Limitar el sesgo

    El modelo de los investigadores es una red neuronal convolucional que se entrena en un conjunto de datos de noticias falsas y noticias reales. Para entrenamiento y pruebas, los investigadores utilizaron un conjunto de datos de investigación de noticias falsas populares, llamado Kaggle, que contiene alrededor de 12, 000 artículos de muestra de noticias falsas de 244 sitios web diferentes. También compilaron un conjunto de datos de muestras de noticias reales, usando más de 2, 000 del New York Times y más de 9, 000 de The Guardian.

    Entrenando, el modelo captura el idioma de un artículo como "inserciones de palabras, "donde las palabras se representan como vectores, básicamente, matrices de números, con palabras de significados semánticos similares agrupadas más juntas. Al hacerlo, captura tríos de palabras como patrones que proporcionan algún contexto, como, decir, un comentario negativo sobre un partido político. Dado un nuevo artículo, el modelo escanea el texto en busca de patrones similares y los envía a través de una serie de capas. Una capa de salida final determina la probabilidad de cada patrón:real o falso.

    Los investigadores primero entrenaron y probaron el modelo de la manera tradicional, utilizando los mismos temas. Pero pensaron que esto podría crear un sesgo inherente en el modelo, dado que ciertos temas suelen ser objeto de noticias falsas o reales. Por ejemplo, En general, es más probable que las noticias falsas incluyan las palabras "Trump" y "Clinton".

    "Pero eso no es lo que queríamos, "Dice O'Brien." Eso solo muestra temas que tienen un gran peso en las noticias falsas y reales. ... Queríamos encontrar los patrones reales en el lenguaje que sean indicativos de ellos ".

    Próximo, los investigadores entrenaron al modelo en todos los temas sin mencionar la palabra "Trump, "y probó el modelo solo en muestras que se habían separado de los datos de entrenamiento y que contenían la palabra" Trump ". Si bien el enfoque tradicional alcanzó una precisión del 93 por ciento, el segundo enfoque alcanzó una precisión del 87 por ciento. Esta brecha de precisión, los investigadores dicen, destaca la importancia de utilizar temas que se han mantenido fuera del proceso de formación, para asegurar que el modelo pueda generalizar lo que ha aprendido a nuevos temas.

    Se necesita más investigación

    Para abrir la caja negra, luego, los investigadores volvieron sobre sus pasos. Cada vez que el modelo hace una predicción sobre un triplete de palabras, una determinada parte del modelo se activa, dependiendo de si el triplete es más probable de una noticia real o falsa. Los investigadores diseñaron un método para rastrear cada predicción hasta su parte designada y luego encontrar las palabras exactas que la activaron.

    Se necesita más investigación para determinar qué tan útil es esta información para los lectores, Dice Boix. En el futuro, el modelo podría potencialmente combinarse con, decir, verificadores automatizados de datos y otras herramientas para dar a los lectores una ventaja en la lucha contra la desinformación. Después de un poco de refinamiento, el modelo también podría ser la base de una extensión del navegador o una aplicación que alerta a los lectores sobre un posible lenguaje de noticias falsas.

    "Si te doy un artículo, y resalte esos patrones en el artículo mientras lee, podría evaluar si el artículo es más o menos falso, ", dice." Sería una especie de advertencia decir:'Oye, tal vez haya algo extraño aquí '".


    © Ciencia https://es.scienceaq.com