Crédito:iStock / champja
Vivimos en una era de demasiada información:un flujo interminable de actualizaciones de estado, memes, repost, infografías, las citas y los hashtags pasan a diario a través de nuestras redes sociales, destinado a expresar puntos de vista, fomenta la solidaridad, proveer información, cambiar de opinión o causar controversias.
El problema es, el usuario promedio de navegadores en línea / redes sociales no tiene el tiempo ni los medios para investigar la legitimidad o procedencia de todo lo que aparece en sus feeds. Y es esta vulnerabilidad la que explotan los generadores de contenido menos escrupulosos para difundir información errónea, con resultados que pueden variar desde una pequeña vergüenza en la cara hasta consecuencias que cambian la vida o que pueden ser mortales.
Para el científico informático de UC Santa Bárbara, William Wang, este pantano caótico es un terreno fértil para la exploración. Wang cree que las técnicas de aprendizaje profundo, cuando se implementa en la red de texto e hipervínculo de publicaciones en línea y artículos de noticias, puede ayudarnos con algunos de los trabajos pesados del pensamiento crítico. Este concepto se encuentra en el corazón de su proyecto de tres años "Dynamo:Modelado dinámico multicanal de desinformación".
"Entonces la pregunta es, dado una publicación, ¿Cómo podría comprender si esto es específicamente engañoso o si se trata de una publicación genuina? "Wang dijo, "y, dada la estructura de la red, ¿Puede identificar la difusión de información errónea y cómo va a ser diferente en comparación con los artículos estándar o no estándar? "
Una orden grande
Es una tarea difícil especialmente en el ámbito de las redes sociales, que ha nivelado el campo de juego entre legítimos, sitios web de noticias establecidos y sitios cuestionables que hacen todo lo posible para parecer oficiales, o apelar a las emociones de un usuario antes de que pueda dar un paso atrás y cuestionar la fuente de su información.
Sin embargo, gracias al procesamiento del lenguaje natural, la especialidad de Wang, el texto de estas publicaciones y artículos se puede utilizar para revelar información sobre sus creadores y propagadores, como sus afiliaciones, ideologías e incentivos para publicar, así como quiénes pueden ser sus destinatarios. El algoritmo rastrea millones de artículos de noticias publicados por usuarios anónimos en plataformas como Twitter y Reddit y examina los títulos de los artículos. contenido y enlaces. El propósito es tener una idea no solo de las entidades detrás de ellos, sino también de sus patrones de difusión a través de la red.
"Muchos de nosotros damos por sentado los sitios web y, de forma casual, retuiteamos o volvemos a publicar información errónea, y así es como se propaga. cae en cascada y se propaga viralmente, "Dijo Wang." Algunas de las preguntas más importantes que nos hacemos son:¿Cuáles son los patrones? ¿Cuáles son los incentivos? "
Descubrir, él y su equipo propusieron un mecanismo de aprendizaje que averigua por qué ciertas historias se vuelven a publicar o retuitean, además de si el contenido en sí es verdadero o falso. Por el camino, Wang dijo:podrían averiguar quién está involucrado en la difusión de la información errónea y qué patrones pueden surgir en ese proceso. Las imágenes también pasarán a formar parte del conjunto de datos, añadió.
Mas tarde, los investigadores planean integrar otros aspectos de su trabajo con información errónea, como clickbait, que usa pegadizo, títulos a menudo sensacionales para atraer a los lectores a hacer clic en un enlace que, en el mejor de los casos, los envía a un sitio web poco fiable, o en el peor de los casos, roba su información.
"Los clickbait son principalmente artículos de baja calidad que, de hecho, pueden contener mucha información errónea e información falsa porque tienen que exagerar, "Dijo Wang. Junto con el estudiante de doctorado en ciencias de la computación Jiawei Wu, el equipo desarrolló un método llamado "co-entrenamiento reforzado, "que emplea un sistema eficiente de etiquetado de algunos cientos de artículos que luego se utilizan para entrenar a un clasificador de aprendizaje automático para etiquetar lo que cree que puede ser clickbait en un enorme, conjunto de datos de un millón de historias.
"Luego tomamos estas instancias recién etiquetadas y volvemos a capacitar al clasificador, ", Dijo Wang." Este proceso iterativo nos permite recopilar más datos de etiquetas a lo largo del tiempo, "añadió, que refina la precisión de la herramienta.
El uso de inteligencia artificial para comprender y encontrar patrones en la marea de texto que nos enviamos todos los días nos daría una idea de cómo nosotros, intencionalmente o sin saberlo, propagar información errónea.
"Esa es realmente la belleza del procesamiento del lenguaje natural y el aprendizaje automático, ", Dijo Wang." Tenemos una gran cantidad de datos en diferentes formatos, y la pregunta es:¿Cómo convertir datos no estructurados en conocimiento estructurado? Ese es uno de los objetivos del aprendizaje profundo y de la ciencia de datos ".