Crédito:CC0 Public Domain
Los seres humanos y las máquinas trabajaron juntos para ayudar a entrenar un modelo de inteligencia artificial (IA) que superó a otros detectores de clickbait, según investigadores de Penn State y Arizona State University. Además, la nueva solución basada en inteligencia artificial también pudo diferenciar entre los titulares de clickbait que fueron generados por máquinas, o bots, y los escritos por personas, ellos dijeron.
En un estudio, los investigadores pidieron a las personas que escribieran su propio clickbait, un interesante pero engañoso, Titular de noticias diseñado para atraer a los lectores a hacer clic en enlaces a otras historias en línea. Los investigadores también programaron máquinas para generar clickbaits artificiales. Luego, los titulares hechos por personas y máquinas se utilizaron como datos para entrenar un algoritmo de detección de clickbait.
La capacidad del algoritmo resultante para predecir los titulares de clickbait fue aproximadamente un 14,5 por ciento mejor que la de otros sistemas. según los investigadores, quienes publicaron sus hallazgos hoy (28 de agosto) en la Conferencia Internacional IEEE / ACM de 2019 sobre Avances en el Análisis de Redes Sociales (ASONAM) en Vancouver, Canadá.
Más allá de su uso en la detección de clickbait, el enfoque del equipo puede ayudar a mejorar el rendimiento del aprendizaje automático en general, dijo Dongwon Lee, el investigador principal del proyecto y profesor asociado de la Facultad de Ciencias y Tecnología de la Información. Lee también es un afiliado del Instituto de Ciencias Cibernéticas (ICS) de Penn State, que proporciona a los investigadores de Penn State acceso a recursos de supercomputación.
"Este resultado es bastante interesante, ya que demostramos con éxito que los datos de entrenamiento de clickbait generados por una máquina se pueden retroalimentar en la canalización de entrenamiento para entrenar una amplia variedad de modelos de aprendizaje automático para mejorar el rendimiento, ", dijo Lee." Este es el paso para abordar el cuello de botella fundamental del aprendizaje automático supervisado que requiere una gran cantidad de datos de entrenamiento de alta calidad ".
Según Thai Le, un estudiante de doctorado en la Facultad de Ciencias de la Información y Tecnología, Penn State, Uno de los desafíos que enfrenta el desarrollo de la detección de clickbait es la falta de datos etiquetados. Al igual que las personas necesitan profesores y guías de estudio que les ayuden a aprender, Los modelos de IA necesitan datos etiquetados para ayudarlos a aprender a hacer las conexiones y asociaciones correctas.
"Una de las cosas de las que nos dimos cuenta cuando comenzamos este proyecto es que no tenemos muchos puntos de datos positivos, ", dijo Le." Para identificar el cebo de clics, necesitamos que los humanos etiqueten esos datos de entrenamiento. Es necesario aumentar la cantidad de puntos de datos positivos para que, mas tarde, podemos entrenar mejores modelos ".
Si bien encontrar clickbait en Internet puede ser fácil, las muchas variaciones de clickbait añaden otra capa de dificultad, según S. Shyam Sundar, James P. Jimirro Profesor de Efectos de Medios y codirector del Laboratorio de Investigación de Efectos de Medios en la Facultad de Comunicaciones Donald P. Bellisario, y una filial de ICS.
"Hay clickbaits que son listas, o listicles; hay clickbaits que se formulan como preguntas; los hay que comienzan con quién-qué-dónde-cuándo; y todo tipo de variaciones de clickbait que hemos identificado en nuestra investigación a lo largo de los años, "dijo Sundar." Entonces, Encontrar suficientes muestras de todos estos tipos de clickbait es un desafío. Aunque todos lamentamos la cantidad de clickbaits que hay, cuando llegue a obtenerlos y etiquetarlos, no hay muchos de esos conjuntos de datos ".
Según los investigadores, el estudio reveló diferencias en la forma en que las personas y las máquinas abordan la creación de titulares. En comparación con el clickbait generado por máquina, los titulares generados por la gente tendían a tener más determinantes, palabras como "cuál" y "eso", en sus titulares.
El entrenamiento también pareció generar diferencias en la creación de clickbait. Por ejemplo, escritores capacitados, como periodistas, tendía a usar palabras más largas y más pronombres que otros participantes. También era probable que los periodistas usaran números para comenzar sus titulares.
Los investigadores planean utilizar estos hallazgos para guiar sus investigaciones hacia un sistema de detección de noticias falsas más sólido. entre otras aplicaciones, según Sundar.
"Para nosotros, clickbait es solo uno de los muchos elementos que componen las noticias falsas, pero esta investigación es un paso preparatorio útil para asegurarnos de que tenemos un buen sistema de detección de clickbait configurado, "dijo Sundar.
Para encontrar escritores de clickbait humanos para el estudio, los investigadores reclutaron estudiantes y trabajadores de periodismo de Amazon Turk, un sitio de crowdsource en línea. Reclutaron a 125 estudiantes y 85 trabajadores del sitio. Los participantes primero leyeron una definición de clickbait y luego se les pidió que leyeran un artículo corto de unas 500 palabras. Luego se pidió a los participantes que escribieran un titular de clickbait para cada artículo.
Los titulares de clickbait generados por máquina se desarrollaron mediante el uso de un modelo de aprendizaje automático llamado Autoencoders Variational (o VAE) modelo generativo, que se basa en probabilidades para encontrar patrones en los datos.
Los investigadores probaron su algoritmo con los sistemas de alto rendimiento de Clickbait Challenge 2017, un concurso de detección de clickbait en línea.