Cómo el big data ha creado una gran crisis en la ciencia

Los científicos se enfrentan a una crisis de reproducibilidad. Crédito:Y Photo Studio / shutterstock.com

Existe una preocupación creciente entre los académicos de que, en muchas áreas de la ciencia, Los famosos resultados publicados tienden a ser imposibles de reproducir.

Esta crisis puede ser grave. Por ejemplo, en 2011, Bayer HealthCare revisó 67 proyectos internos y descubrió que podían replicar menos del 25 por ciento. Es más, más de dos tercios de los proyectos presentaban inconsistencias importantes. Más recientemente, en noviembre, una investigación de 28 artículos importantes de psicología descubrió que solo la mitad podía reproducirse.

Se informan hallazgos similares en otros campos, incluida la medicina y la economía. Estos sorprendentes resultados ponen en graves problemas la credibilidad de todos los científicos.

¿Qué está causando este gran problema? Hay muchos factores que contribuyen. Como estadístico, Veo grandes problemas con la forma en que se hace la ciencia en la era del big data. La crisis de reproducibilidad es impulsada en parte por análisis estadísticos inválidos que provienen de hipótesis basadas en datos, lo contrario de cómo se hacen las cosas tradicionalmente.

Método científico

En un experimento clásico, el estadístico y el científico primero enmarcan juntos una hipótesis. Luego, los científicos realizan experimentos para recopilar datos, que posteriormente son analizados por estadísticos.

Un ejemplo famoso de este proceso es la historia de la "dama probando el té". En la década de 1920, en una fiesta de académicos, una mujer afirmó poder notar la diferencia de sabor si el té o la leche se agregaban primero en una taza. El estadístico Ronald Fisher dudaba que tuviera tal talento. Hizo la hipótesis de que, de ocho tazas de té, preparado de tal manera que a cuatro tazas se les agregó primero leche y a las otras cuatro tazas se les agregó té primero, el número de conjeturas correctas seguiría un modelo de probabilidad llamado distribución hipergeométrica.

Tal experimento se realizó con ocho tazas de té enviadas a la dama en un orden aleatorio y, de acuerdo con la leyenda, categorizó los ocho correctamente. Esta fue una fuerte evidencia en contra de la hipótesis de Fisher. Las posibilidades de que la dama hubiera logrado todas las respuestas correctas mediante adivinanzas al azar eran de un 1,4 por ciento extremadamente bajo.

Ese proceso - hipotetizar, luego recopile datos, luego analizar - es poco común en la era de los macrodatos. La tecnología actual puede recopilar grandes cantidades de datos, del orden de 2,5 exabytes al día.

Si bien esto es bueno, la ciencia a menudo se desarrolla a una velocidad mucho más lenta, por lo que los investigadores pueden no saber cómo dictar la hipótesis correcta en el análisis de datos. Por ejemplo, Los científicos ahora pueden recopilar decenas de miles de expresiones genéticas de personas, pero es muy difícil decidir si se debe incluir o excluir un gen en particular en la hipótesis. En este caso, es atractivo formar la hipótesis a partir de los datos. Si bien estas hipótesis pueden parecer convincentes, Las inferencias convencionales de estas hipótesis son generalmente inválidas. Esto es porque, en contraste con el proceso de "dama degustando té", el orden de construir la hipótesis y ver los datos se ha invertido.

Problemas de datos

¿Por qué esta reversión puede causar un gran problema? Consideremos una versión de big data de la dama del té, un ejemplo de "100 mujeres probando té".

Supongamos que hay 100 mujeres que no pueden diferenciar el té, pero adivine después de probar las ocho tazas. En realidad, hay un 75,6 por ciento de posibilidades de que al menos una dama adivine todos los pedidos correctamente.

Ahora, si un científico ve a una dama con un resultado sorprendente de todas las copas correctas y realiza un análisis estadístico para ella con la misma distribución hipergeométrica anterior, entonces podría llegar a la conclusión de que esta dama tenía la capacidad de distinguir entre cada taza. Pero este resultado no es reproducible. Si la misma mujer volviera a hacer el experimento, lo más probable es que clasificara las tazas incorrectamente, sin tener tanta suerte como la primera vez, ya que no podía diferenciar entre ellas.

Este pequeño ejemplo ilustra cómo los científicos pueden "afortunadamente" ver señales interesantes pero falsas de un conjunto de datos. Pueden formular hipótesis después de estas señales, luego use el mismo conjunto de datos para sacar las conclusiones, afirmando que estas señales son reales. Puede pasar un tiempo antes de que descubran que sus conclusiones no son reproducibles. Este problema es particularmente común en el análisis de big data debido al gran tamaño de los datos, por casualidad, pueden producirse "afortunadamente" algunas señales falsas.

¿Qué es peor? este proceso puede permitir a los científicos manipular los datos para producir el resultado más publicable. Los estadísticos bromean sobre esta práctica:"Si torturamos los datos con suficiente fuerza, te dirán algo ". Sin embargo, ¿Es este "algo" válido y reproducible? Probablemente no.

Análisis más sólidos

¿Cómo pueden los científicos evitar el problema anterior y lograr resultados reproducibles en el análisis de big data? La respuesta es simple:tenga más cuidado.

Si los científicos quieren resultados reproducibles a partir de hipótesis basadas en datos, luego deben tener en cuenta cuidadosamente el proceso basado en datos en el análisis. Los estadísticos deben diseñar nuevos procedimientos que proporcionen inferencias válidas. Ya hay algunos en marcha.

Las estadísticas se refieren a la forma óptima de extraer información de los datos. Por esta naturaleza, es un campo que evoluciona con la evolución de los datos. Los problemas de la era de los macrodatos son solo un ejemplo de esa evolución. Creo que los científicos deberían aceptar estos cambios, ya que darán lugar a oportunidades para desarrollar nuevas técnicas estadísticas, que a su vez proporcionará descubrimientos científicos válidos e interesantes.

Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.