Crédito:Pixabay/CC0 Dominio público
Investigación publicada en International Journal of Cloud Computing analiza cómo el aprendizaje automático podría permitirnos analizar la naturaleza y las características de las actualizaciones de las redes sociales y detectar cuáles de esas actualizaciones están agregando agua a la fábrica de rumores en lugar de ser fácticas.
Las noticias falsas han estado con nosotros desde que se transmitió el primer chisme en el pasado. Pero, con la llegada de las redes sociales, ahora es mucho más fácil difundir noticias falsas, desinformación y propaganda a una gran audiencia global con pocas restricciones. Un rumor puede hacer o deshacer una reputación. En estos días, eso podría suceder en todo el mundo a través de la cámara de eco amplificadora de las redes sociales.
Mohammed Al-Sarem, Muna Al-Harby, Faisal Saeed y Essa Abdullah Hezzam de la Universidad de Taibah en Medina, Arabia Saudita, estudiaron los diferentes enfoques de preprocesamiento de texto para abordar las grandes cantidades de datos que se filtran a diario desde las redes sociales. . Qué tan bien funcionan estos enfoques en el análisis posterior de detección de rumores es fundamental para saber qué tan bien se pueden detectar y detener las noticias falsas. El equipo probó varios enfoques en un conjunto de datos de tuits relacionados con noticias políticas de Arabia Saudita.
El preprocesamiento puede observar las tres características más relevantes de una actualización antes de que se lleve a cabo el análisis de texto y silo las diferentes actualizaciones en consecuencia:Primero, puede observar el uso de signos de interrogación y exclamación y el recuento de palabras. En segundo lugar, puede ver si una cuenta está verificada o si tiene propiedades asociadas más a menudo con una cuenta falsa o bot, como el número de tweets, las respuestas, los retweets, etc. En tercer lugar, puede ver las características basadas en el usuario, como el usuario. nombre y el logo o foto de perfil del usuario.
Los investigadores descubrieron que el preprocesamiento puede mejorar significativamente el análisis cuando la salida se envía a cualquiera de los clasificadores de máquina de vectores de soporte (SVM), multinomial naïve Bayes (MNB) y K-vecino más cercano (KNN). Sin embargo, esos clasificadores reaccionan de manera diferente según la combinación de técnicas de preprocesamiento que se utilice. Por ejemplo, eliminar palabras vacías y limpiar etiquetas de codificación, como HTML, derivación y tokenización. Un estudio muestra que los usuarios verificados se encuentran entre los principales culpables cuando se trata de compartir noticias falsas