Crédito:Shutterstock
Desde los primeros días de las redes sociales, Ha habido entusiasmo sobre cómo los rastros de datos dejados por los usuarios pueden explotarse para el estudio del comportamiento humano. Hoy en día, Los investigadores que alguna vez estuvieron restringidos a encuestas o experimentos en entornos de laboratorio tienen acceso a enormes cantidades de datos del "mundo real" de las redes sociales.
Las oportunidades de investigación que brindan los datos de las redes sociales son innegables. Sin embargo, Los investigadores a menudo analizan estos datos con herramientas que no fueron diseñadas para administrar el tipo de conjuntos de datos de observación ruidosos que encuentre en las redes sociales.
Exploramos los problemas que los investigadores pueden encontrar debido a este desajuste entre los datos y los métodos.
Lo que descubrimos es que los métodos y las estadísticas que se usan comúnmente para proporcionar evidencia de hallazgos científicos aparentemente significativos también parecen respaldar afirmaciones sin sentido.
Ciencia absurda
La motivación de nuestro artículo proviene de una serie de estudios de investigación que presentan deliberadamente resultados científicos absurdos.
Un estudio de imágenes cerebrales pareció mostrar la actividad neuronal de un salmón muerto encargado de identificar emociones en fotos. Un análisis de estadísticas longitudinales de los registros de salud pública sugirió que el acné, altura, y los dolores de cabeza son contagiosos. Y un análisis de la toma de decisiones humana aparentemente indicó que las personas pueden juzgar con precisión el tamaño de la población de diferentes ciudades clasificándolas en orden alfabético.
¿Por qué un investigador haría todo lo posible para explorar ideas tan ridículas? El valor de estos estudios no radica en presentar un nuevo hallazgo sustancial. Ningún investigador serio discutiría, por ejemplo, que un salmón muerto tiene una perspectiva de las emociones en las fotos.
Bastante, los resultados sin sentido resaltan problemas con los métodos utilizados para lograrlos. Nuestra investigación explora si los mismos problemas pueden afectar a los estudios que utilizan datos de las redes sociales. Y descubrimos que efectivamente lo hacen.
Resultados positivos y negativos
Cuando un investigador busca abordar una pregunta de investigación, el método que utilicen debería poder hacer dos cosas:
Por ejemplo, Imagine que tiene dolor de espalda crónico y se somete a un examen médico para encontrar la causa. La prueba identifica un disco desalineado en su columna. Este hallazgo puede ser importante e informar un plan de tratamiento.
Sin embargo, si luego descubre que la misma prueba identifica este disco desalineado en una gran proporción de la población que no tiene dolor de espalda crónico, el hallazgo se vuelve mucho menos informativo para usted.
El hecho de que la prueba no identifique un La característica distintiva de los casos negativos (sin dolor de espalda) de los casos positivos (dolor de espalda) no significa que el disco desalineado en su columna sea inexistente. Esta parte del hallazgo es tan "real" como cualquier hallazgo. Sin embargo, la falla significa que el resultado no es útil:"evidencia" que es tan probable que se encuentre cuando hay un efecto significativo (en este caso, dolor de espalda), ya que cuando no hay ninguno simplemente no es diagnóstico, y, como resultado, tal evidencia no es informativa.
Contagio XYZ
Usando el mismo razonamiento, Evaluamos métodos de uso común para analizar datos de redes sociales, llamados "prueba de significación de hipótesis nula" y "estadísticas correlacionales", formulando una pregunta de investigación absurda.
Los estudios pasados y actuales han tratado de identificar qué factores influyen en las decisiones de los usuarios de Twitter de retuitear otros tweets. Esto es interesante tanto como una ventana al pensamiento humano como porque compartir publicaciones es un mecanismo clave mediante el cual los mensajes se amplifican o se difunden en las redes sociales.
Así que decidimos analizar los datos de Twitter utilizando los métodos estándar anteriores para ver si un efecto sin sentido que llamamos "contagio XYZ" influye en los retweets. Específicamente, preguntamos, "¿El número de X, Ys, y las Z en un tweet aumentan la probabilidad de que se difunda? "
Tras analizar seis conjuntos de datos que contienen cientos de miles de tweets, la "respuesta" que encontramos fue sí. Por ejemplo, en un conjunto de datos de 172, 697 tweets sobre COVID-19, la presencia de una X, Y, o Z en un tweet pareció aumentar el alcance del mensaje en un factor del 8%.
No hace falta decir que, no creemos la presencia de Xs, Ys, y Zs es un factor central a la hora de decidir si las personas eligen retuitear un mensaje en Twitter.
Sin embargo, como el examen médico para diagnosticar el dolor de espalda, nuestro hallazgo muestra que a veces, Los métodos para el análisis de datos de las redes sociales pueden "revelar" efectos donde no debería haber ninguno. Esto plantea preguntas sobre cuán significativos e informativos son los resultados obtenidos al aplicar los métodos actuales de las ciencias sociales a los datos de las redes sociales.
A medida que los investigadores continúan analizando los datos de las redes sociales e identificando los factores que dan forma a la evolución de la opinión pública, secuestrar nuestra atención, o explicar de otra manera nuestro comportamiento, debemos pensar críticamente sobre los métodos que subyacen a tales hallazgos y reconsiderar lo que podemos aprender de ellos.
¿Qué es un hallazgo "significativo"?
Las cuestiones planteadas en nuestro documento no son nuevas, y de hecho, hay muchas prácticas de investigación que se han desarrollado para garantizar que los resultados sean significativos y sólidos.
Por ejemplo, Se anima a los investigadores a que registren previamente sus hipótesis y planes de análisis antes de iniciar un estudio para evitar una especie de selección de datos llamada "p-hacking". Otra práctica útil es comprobar si los resultados son estables después de eliminar los valores atípicos y controlar las covariables. También son importantes los estudios de replicación, que evalúan si los resultados obtenidos en un experimento se pueden encontrar nuevamente cuando el experimento se repite en condiciones similares.
Estas prácticas son importantes, pero por sí solos no son suficientes para abordar el problema que identificamos. Si bien es necesario desarrollar prácticas de investigación estandarizadas, La comunidad de investigación debe primero pensar críticamente sobre qué hace que un hallazgo en los datos de las redes sociales sea significativo.
Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.