Crédito:Charles Rondeau / dominio público
Hoy dia, en Comportamiento humano de la naturaleza , un equipo colaborativo de cinco laboratorios publicó los resultados de 21 réplicas de alto poder de experimentos de ciencias sociales publicados originalmente en Ciencias y Naturaleza , dos de las revistas científicas más prestigiosas. No pudieron replicar los resultados de más de un tercio de los estudios y presentaron evidencia significativamente más débil para el resto en comparación con los estudios originales.
Además, antes de realizar las réplicas, el equipo estableció mercados de predicción para que otros investigadores apostaran dinero sobre si pensaban que cada uno de los hallazgos se replicaría. Los mercados fueron muy precisos al predecir qué estudios tendrían éxito o fracasarían en replicar.
“Es posible que errores en la replicación o diferencias entre los estudios originales y de replicación sean responsables de algunas fallas en la replicación, "dice Gideon Nave, profesor asistente de marketing de la Wharton School of Business de la Universidad de Pensilvania y uno de los líderes del proyecto, "pero el hecho de que los mercados predijeron el éxito y el fracaso de la replicación con precisión de antemano reduce la plausibilidad de estas explicaciones".
El equipo incluyó a investigadores de Penn, la Universidad de Innsbruck, la Escuela de Economía de Estocolmo, el Instituto de Estudios Avanzados de Nueva Zelanda, el Centro de Ciencia Abierta, la Universidad Nacional de Singapur, la Universidad de Virginia, Instituto de Tecnología de California, la Universidad de Gotemburgo, Universidad Harvard, Spotify Suecia, LMU Múnich, la Universidad de Amsterdam, y el Instituto de Tecnología de Harbin.
Los investigadores intentaron replicar un hallazgo principal de cada artículo experimental de ciencias sociales publicado entre 2010 y 2015 que cumplía con los requisitos del equipo de involucrar experimentos controlados aleatorios realizados con estudiantes universitarios o en línea. Para ampliar y mejorar los esfuerzos de replicación anteriores, el equipo obtuvo los materiales originales y recibió la revisión y el respaldo de los protocolos de casi todos los autores originales antes de realizar los estudios. Los estudios fueron prerregistrados para declarar públicamente el plan de diseño y análisis, y el diseño del estudio incluyó tamaños de muestra grandes, de modo que las réplicas probablemente detectarían el apoyo a los hallazgos, incluso si fueran tan pequeños como la mitad del tamaño del resultado original.
"Para garantizar un alto poder estadístico, "dice Felix Holzmeister de la Universidad de Innsbruck, otro de los líderes del proyecto, "el tamaño de muestra promedio de los estudios de replicación fue aproximadamente cinco veces mayor que el tamaño de muestra promedio de los estudios originales".
El equipo descubrió que 13 de las 21 réplicas, o 62 por ciento, mostró evidencia significativa consistente con la hipótesis original, y otros métodos para evaluar el éxito de la replicación indicaron resultados similares, que van del 57 al 67 por ciento. También, de media, los estudios de replicación mostraron tamaños de efecto que eran aproximadamente un 50 por ciento más pequeños que los estudios originales. En conjunto, esto sugiere que la reproducibilidad es imperfecta incluso entre los estudios publicados en las revistas científicas más prestigiosas.
"Estos resultados muestran que los hallazgos científicos 'estadísticamente significativos', "dice Magnus Johannesson de la Escuela de Economía de Estocolmo, otro líder de proyecto, "Deben interpretarse con mucha cautela hasta que se hayan replicado aunque se publiquen en las revistas más prestigiosas".
Los mercados de predicción que estableció el equipo de investigación predijeron correctamente los resultados de 18 de las 21 repeticiones. Las creencias del mercado sobre la replicación estaban altamente correlacionadas con los tamaños del efecto de la replicación.
"Los hallazgos de los mercados de predicción sugieren que los investigadores tienen conocimientos avanzados sobre la probabilidad de que algunos hallazgos se repitan, "señala Thomas Pfeiffer del Instituto de Estudios Avanzados de Nueva Zelanda, otro de los líderes del proyecto. La aparente solidez de este fenómeno sugiere que los mercados de predicción podrían usarse para ayudar a priorizar los esfuerzos de replicación para aquellos estudios que tienen hallazgos muy importantes pero una probabilidad relativamente incierta o débil de replicación exitosa.
"El uso de mercados de predicción podría ser otra forma de que la comunidad científica utilice los recursos de manera más eficiente y acelere el descubrimiento, "añade Anna Dreber de la Escuela de Economía de Estocolmo, otro líder de proyecto.
Este estudio proporciona evidencia adicional de los desafíos en la reproducción de resultados publicados, y aborda algunas de las posibles críticas de intentos previos de replicación. Por ejemplo, Es posible que los resultados de mayor perfil sean más reproducibles debido a los altos estándares y el prestigio del medio de publicación. Este estudio seleccionó artículos de las revistas científicas más prestigiosas.
Igualmente, una crítica del Proyecto de Reproducibilidad en Psicología sugirió que los diseños de investigación de mayor potencia y la fidelidad a los estudios originales darían como resultado una alta reproducibilidad. Este estudio tuvo pruebas de muy alta potencia, materiales originales para todos los estudios menos uno, y la aprobación de protocolos para todos los estudios excepto dos, y, sin embargo, aún no logró replicar algunos hallazgos y encontró tamaños de efecto sustancialmente más pequeños en las replicaciones.
"This shows that increasing power substantially is not sufficient to reproduce all published findings, " says Lily Hummer of the Center for Open Science, uno de los coautores.
That there were replication failures does not mean that those original findings are false. Sin embargo, some original authors provided commentaries with potential reasons for failures to replicate. These productive ideas are worth testing in future research to determine whether the original findings can be reproduced under some conditions.
The replications undertaken in this work follow emerging best practices for improving the rigor and reproducibility of research. "En este proyecto, we led by example, involving a global team of researchers, , " says Teck-Hua Ho of the National University of Singapore, another project lead. "The team followed the highest standards of rigor and transparency to test the reproducibility and robustness of studies in our field."
All of the studies were preregistered on OSF to eliminate reporting bias and to commit to the design and analysis plan. También, all project data and materials are publicly accessible with the OSF registrations to facilitate the review and reproduction of the replication studies themselves.
Brian Nosek, executive director of the Center for Open Science, professor at the University of Virginia, and one of the co-authors, notas "Someone observing these failures to replicate might conclude that science is going in the wrong direction. In fact, science's greatest strength is its constant self-scrutiny to identify and correct problems and increase the pace of discovery."
This large-scale replication project is just one part of an ongoing reformation of research practices. Investigadores funders, revistas, and societies are changing policies and practices to nudge the research culture toward greater openness, rigor, and reproducibility. Nosek concludes, "With these reforms, we should be able to increase the speed of finding cures, solutions, and new knowledge. Por supuesto, like everything else in science, we have to test whether the reforms actually deliver on that promise. Si no lo hacen then science will try something else to keep improving."