Crédito:Petr Kratochvil / Dominio público
Un solo cambio a un estándar estadístico centenario mejoraría drásticamente la calidad de la investigación en muchos campos científicos, reducir el número de los llamados falsos positivos, según un comentario publicado el 1 de septiembre en Comportamiento humano de la naturaleza .
El argumento, coautor del economista John List de la Universidad de Chicago, representa el consenso de 72 académicos de instituciones de todo el mundo y disciplinas que van desde la neurobiología hasta la filosofía. Sus recomendaciones podrían tener un efecto importante en la publicación de trabajos académicos y en las políticas públicas.
"Anunciamos que las intervenciones funcionan porque estadísticamente creemos que están funcionando. Pero en realidad no están funcionando. Esto se está convirtiendo en una crisis en las ciencias, "dijo List, el Profesor de Economía Kenneth C. Griffin Distinguished Service.
List y sus coautores sugieren que los científicos deben restablecer un punto de referencia estadístico conocido como valor p porque los estándares de evidencia para afirmar nuevos descubrimientos en muchos campos son simplemente demasiado bajos. El enfoque es perjudicial para la credibilidad de las afirmaciones científicas, ellos dijeron.
Se adoptó un estándar de valor p a partir de la década de 1920, cuando el estadístico británico Ronald Fisher propuso un valor por debajo de 0,05 como umbral para determinar la validez de los resultados de la investigación. Si el valor p cae por debajo de ese umbral, lo que significa que la probabilidad de que las conclusiones de un estudio se deban a una probabilidad aleatoria es inferior al 5 por ciento, entonces la investigación generalmente se considera estadísticamente significativa.
Pero el umbral del valor p se ha convertido en un blanco de críticas en respuesta a la percepción de una crisis de replicación en las comunidades científicas. Las revistas científicas utilizan con frecuencia la significación estadística (y los valores p) como prueba para seleccionar qué artículos publicar. List dijo que el umbral del valor p actual de 0.05 permite que se publiquen muchos estudios e influya en las decisiones económicas y políticas, aunque los resultados pueden no ser reproducibles por otros investigadores.
"Si Ronald Fisher hubiera sabido eso cerca de 100 años después, estaríamos usando el estándar 0.05 religiosamente para tomar decisiones políticas 'informadas', No creo que lo hubiera adelantado, "Dijo List.
Estudios más reproducibles
Para estar seguro de que un descubrimiento inicial funcionará cuando se ponga en práctica, los resultados deben ser replicables. Estudios anteriores han demostrado que solo el 24 por ciento de los estudios de psicología con un valor p de 0,05 podrían confirmarse mediante experimentos adicionales. lo que sugiere que tres de cada cuatro estudios presentaron resultados falsos positivos. Similar, sólo el 44 por ciento de los artículos de economía con el mismo valor p fueron reproducibles.
Los autores calcularon que reducir el umbral del valor p a 0,005 aproximadamente duplicaría las tasas de replicación en psicología y economía. y otros campos verían resultados similares. "Cambiar el umbral del valor p es simple, se alinea con la formación llevada a cabo por muchos investigadores y podría alcanzar rápidamente una amplia aceptación, "dijeron los autores.
List está de acuerdo. "Quieres crear un mundo en el que haya más personas que intenten replicar y quieres que la sociedad recompense a esas personas, ", dijo." Y también quiere que más resultados que se incluyan en la política sean verdaderos resultados, para ser replicable. Por debajo del 0,005 más de ellos estarían ".
Para fomentar aún más la publicación y reproducción de estudios, los autores del artículo proponen que los nuevos hallazgos que actualmente se llamarían "significativos" pero que no cumplen con el valor p revisado de 0,005 deberían denominarse "sugerentes".
List y sus coautores tienen cuidado de señalar que un cambio en el valor p no es el único paso para mejorar la investigación científica. "Tenemos opiniones diversas sobre la mejor manera de mejorar la reproducibilidad, y muchos de nosotros creemos que otras formas de resumir los datos ... son preferibles a los valores p, " ellos dijeron.