En esta visualización de datos, cada nodo representa un grupo de páginas de Wikipedia sobre un tema relacionado con los eventos mundiales de 2015. Los pétalos se forman agrupando nodos de un tema determinado. Crédito:Kirell Benzi
Los investigadores de EPFL han estudiado la dinámica de las estructuras de red utilizando uno de los sitios web más visitados del mundo:Wikipedia. Además de una mejor comprensión de las redes en línea, su trabajo aporta conocimientos interesantes sobre el comportamiento social humano y la memoria colectiva.
¿Alguna vez ha visitado una página de Wikipedia para responder una pregunta? solo para encontrarse haciendo clic de una página a otra, hasta que terminas con un tema tremendamente diferente al que empezaste? Si es así, no solo no estas solo, pero es probable que otras personas hayan tomado la misma ruta indirecta desde, decir, "Juego de Tronos" a "Dubrovnik" a "atracción turística" a "la bola de hilo más grande del mundo".
Investigadores del laboratorio de procesamiento de señales (LTS2) dirigido por el profesor Pierre Vandergheynst en la Escuela de Ingeniería EPFL (STI) y la Escuela de Ciencias de la Computación y la Comunicación (IC) querían descubrir cómo funciona este proceso.
Más específicamente, se propusieron estudiar la dinámica de la estructura de la red utilizando el procesamiento de señales y la teoría de redes, desarrollar un algoritmo para detectar automáticamente la actividad inusual en cambios constantes, sistemas complejos como Wikipedia.
"El cerebro de la humanidad"
La capacidad de detectar y estudiar eventos anómalos en redes en línea, por ejemplo, un aumento repentino en el número de visitas a una página de Wikipedia en particular durante un cierto período de tiempo, podría decirnos mucho sobre la interacción humana, comportamiento colectivo, intercambio de memoria e información, dicen los investigadores.
Esta visualización de datos muestra páginas de Wikipedia sobre actores de GoT, personajes y episodios. Crédito:LTS2 / EPFL
"Nuestra idea era imaginar Wikipedia como el cerebro de la humanidad, donde las visitas a la página son comparables a los picos en la actividad cerebral, "dice Volodymyr Miz, un investigador y Ph.D. estudiante en el LTS2. Miz es el autor principal de un artículo sobre el nuevo algoritmo, que se presentó recientemente en The Web Conference 2019 en San Francisco, California, NOSOTROS..
Coautor Kirell Benzi, un ex investigador de LTS2 y profesor de visualización de datos de EPFL que ahora trabaja como artista de datos, añadió que lo que hacía que Wikipedia fuera tan atractiva como fuente de datos era su accesibilidad y tamaño.
"Wikipedia tiene alrededor de 5000 millones de visitas al año solo en inglés. Con esta técnica, podemos identificar grupos de páginas que pertenecen juntas, " él dijo.
De la memoria colectiva a las fake news
El algoritmo de los investigadores es único porque no solo puede identificar tales eventos anómalos, pero también proporciona información sobre dónde exactamente, cómo, y por qué sucedieron.
"La principal diferencia es que proporcionamos más contexto debido a la estructura de la red. Por ejemplo, si miramos las páginas de Wikipedia sobre los ataques terroristas de París de 2015, podemos ver que la página sobre el ataque está directamente conectada a la página sobre la revista Charlie Hebdo, y también a un grupo de páginas que representan organizaciones terroristas, "Miz explica.
Fluctuaciones en las visitas a las páginas de Wikipedia de dos personajes de GoT a lo largo del tiempo. Crédito:LTS2 / EPFL
Benzi y Miz llaman a este tipo de búsqueda de información "memoria colectiva, "ya que puede revelar cómo los eventos actuales desencadenan recuerdos del pasado.
"La investigación de Wikipedia trata de intentar explorar nuevos hallazgos sobre la naturaleza humana en sí. Wikipedia es un conjunto de datos muy interesante porque refleja más o menos lo que nosotros, como humanidad, decidimos recordar. Colectivamente, tenemos la misma línea de pensamiento y examinamos los mismos temas, "Dice Benzi.
Entonces, qué temas le interesan más a la gente, según esta investigación? En resumen:otras personas.
"Aproximadamente el 80% de las visitas son para entretenimiento o celebridades. En investigaciones anteriores, hemos descubierto que el 40% de todos los enlaces en los que se hace clic son sobre personas y sus relaciones, "Benzi dice, agregando que menos del 1% de las visitas son por temas relacionados con la ciencia.
El LTS2 está colaborando actualmente con los desarrolladores del navegador web sin conexión gratuito Kiwix, que tiene como objetivo llevar versiones comprimidas de Wikipedia a quienes no tienen acceso gratuito a Internet.
"Nuestro método podría ser muy útil para Kiwix para ayudar a identificar y comprimir solo las partes relevantes de Wikipedia, basado en el idioma y la cultura, por ejemplo, "Dice Miz.
Otras aplicaciones del algoritmo podrían incluir estudiar la propagación de noticias falsas en Twitter mediante el seguimiento de picos en los retweets, o comprender los vínculos entre la dinámica de la red de correo electrónico y los eventos del mundo real. Sin embargo, Estos temas son más difíciles de estudiar que Wikipedia debido a la menor cantidad de datos disponibles gratuitamente.
Esta visualización de datos muestra páginas de Wikipedia sobre actores de GoT, personajes y episodios. Crédito:LTS2 / EPFL
Estudio de caso:Juego de tronos
Miz, Benzi y sus colegas utilizaron su método para detectar actividad anómala en las páginas de Wikipedia relacionadas con la temporada final del exitoso programa de HBO Game of Thrones como ejemplo. El conjunto de datos abierto resultante les permitió crear visualizaciones de datos de páginas relacionadas con diferentes aspectos del programa, incluyendo actores, caracteres, estaciones, episodios, y otros temas.
Los investigadores también pudieron utilizar el método para determinar la popularidad de los personajes en función del número de visitas a sus páginas de Wikipedia a lo largo del tiempo. y actualmente están tratando de ver qué otras páginas se activaron por la muerte de un personaje en particular en el programa. Este trabajo se basa en un esfuerzo similar en 2016 para analizar el universo de Star Wars.
Benzi señala que la investigación es un excelente ejemplo de humanidades digitales, en el que se aplican métodos de ciencia de datos y tecnologías digitales a la sociología, literatura, historia y otros campos de las humanidades.
"Las humanidades digitales son un campo realmente interesante, pero solo funciona cuando tiene una combinación de diferentes conjuntos de habilidades de la ciencia de datos, Ingenieria, psicología, sociología, arte y así sucesivamente. Entonces, una de las ventajas es poder colaborar entre laboratorios, "Dice Benzi.