Evaluación de la toxicidad de los comentarios de Reddit

Crédito:CC0 Dominio público

Nueva investigación, publicada en PeerJ Computer Science , que analiza más de 87 millones de publicaciones y 2205 millones de comentarios en Reddit de más de 1,2 millones de usuarios únicos, examina los cambios en el comportamiento en línea de los usuarios que publican en múltiples comunidades en Reddit midiendo la "toxicidad".

El análisis de toxicidad del comportamiento de los usuarios mostró que el 16,11% de los usuarios publican publicaciones tóxicas y el 13,28% de los usuarios publican comentarios tóxicos. El 30,68 % de los usuarios que publican publicaciones y el 81,67 % de los usuarios que publican comentarios muestran cambios en su toxicidad en diferentes comunidades (o subreddits), lo que indica que los usuarios adaptan su comportamiento a las normas de las comunidades.

El estudio sugiere que una forma de limitar la propagación de la toxicidad es limitar las comunidades en las que pueden participar los usuarios. Los investigadores encontraron una correlación positiva entre el aumento del número de comunidades y el aumento de la toxicidad, pero no pueden garantizar que esta sea la única razón detrás del aumento del contenido tóxico.

Se pueden compartir y publicar varios tipos de contenido en las plataformas de redes sociales, lo que permite a los usuarios comunicarse entre sí de diversas maneras. Desafortunadamente, el crecimiento de las plataformas de redes sociales ha llevado a una explosión de contenido malicioso como el acoso, las blasfemias y el ciberacoso. Varias razones pueden motivar a los usuarios de las plataformas de redes sociales a difundir contenido dañino. Se ha demostrado que la publicación de contenido tóxico (es decir, comportamiento malicioso) se propaga:el comportamiento malicioso de los usuarios no malintencionados puede influir en los usuarios no malintencionados y hacer que se comporten mal, lo que impacta negativamente en las comunidades en línea.

"Un desafío al estudiar la toxicidad en línea es la multitud de formas que toma, incluido el discurso de odio, el acoso y el ciberacoso. El contenido tóxico a menudo contiene insultos, amenazas y lenguaje ofensivo que, a su vez, contaminan las plataformas en línea. Varias plataformas en línea han implementado mecanismos de prevención, pero estos esfuerzos no son lo suficientemente escalables para frenar el rápido crecimiento del contenido tóxico en las plataformas en línea. Estos desafíos requieren el desarrollo de soluciones automáticas o semiautomáticas efectivas para detectar la toxicidad de una gran cantidad de contenido en las plataformas en línea ", dicen los autores, Doctor. (ABD) Hind Almerekhi, el Dr. Haewoon Kwak y el profesor Bernard J. Jansen.

"Monitorear el cambio en la toxicidad de los usuarios puede ser un método de detección temprana de la toxicidad en las comunidades en línea. La metodología propuesta puede identificar cuándo los usuarios exhiben un cambio mediante el cálculo del porcentaje de toxicidad en publicaciones y comentarios. Este cambio, combinado con el nivel de toxicidad de nuestro sistema detecta en las publicaciones de los usuarios, se puede usar de manera eficiente para detener la diseminación de toxicidad".

El equipo de investigación, con la ayuda de crowdsourcing, creó un conjunto de datos etiquetados de 10,083 comentarios de Reddit, luego usó el conjunto de datos para entrenar y ajustar un modelo de red neuronal de representaciones de codificador bidireccional de transformadores (BERT). El modelo predijo los niveles de toxicidad de 87 376 912 publicaciones de 577 835 usuarios y 2 205 581 786 comentarios de 890 913 usuarios en Reddit durante 16 años, de 2005 a 2020.

Este estudio utilizó los niveles de toxicidad del contenido del usuario para identificar los cambios de toxicidad por parte del usuario dentro de la misma comunidad, en varias comunidades y con el tiempo. Para el rendimiento de detección de toxicidad, el modelo BERT ajustado logró una precisión de clasificación del 91,27 % y una puntuación de área bajo la curva característica operativa del receptor (AUC) de 0,963 y superó varios modelos de redes neuronales y aprendizaje automático de referencia. + Explora más