• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Otro
    ¿Es el final de la significación estadística? La batalla para hacer que la ciencia sea más incierta

    Una guía rápida de los valores p. Crédito:Repapetilto / Wikimedia, CC BY-SA

    El mundo científico es un hervidero de recomendaciones de dos de las revistas académicas más prestigiosas: El estadístico estadounidense y Naturaleza - que se elimine el término "significación estadística".

    En su introducción al número especial de The American Statistician sobre el tema, Los editores de la revista instan a "trasladarse a un mundo más allá del <0,05, '"el famoso umbral del 5 por ciento para determinar si el resultado de un estudio es estadísticamente significativo. Si un estudio pasa esta prueba, significa que la probabilidad de que un resultado se deba únicamente al azar es inferior al 5 por ciento. A menudo se ha entendido que esto significa que vale la pena prestar atención al estudio.

    El mensaje básico de la revista, pero no necesariamente el consenso de los 43 artículos de este número, una de las cuales contribuí - fue que los científicos, ante todo, deberían "abrazar la incertidumbre" y "ser reflexivos, abierto y modesto ".

    Si bien estas son buenas cualidades, Creo que los científicos no deben dejar que oscurezcan la precisión y el rigor que exige la ciencia. La incertidumbre es inherente a los datos. Si los científicos debilitan aún más el ya muy débil umbral de 0,05, entonces eso inevitablemente haría que los hallazgos científicos fueran más difíciles de interpretar y menos probable que se confiara en ellos.

    Sumando dificultad a la dificultad

    En la práctica tradicional de la ciencia, un científico genera una hipótesis y diseña experimentos para recopilar datos en apoyo de hipótesis. Luego, recopila datos y realiza análisis estadísticos para determinar si los datos realmente respaldan la hipótesis.

    Un análisis estadístico estándar es el valor p. Esto genera un número entre 0 y 1 que indica fuerte, apoyo marginal o débil de una hipótesis.

    Pero me preocupa que el abandono de los estándares basados ​​en la evidencia para estos juicios hará que sea aún más difícil diseñar experimentos, mucho menos evaluar sus resultados. Por ejemplo, ¿Cómo se podría siquiera determinar un tamaño de muestra apropiado sin un nivel de precisión específico? ¿Y cómo deben interpretarse los resultados de la investigación?

    Estas son preguntas importantes, no solo para investigadores de agencias reguladoras o de financiación, pero para cualquiera cuya vida diaria esté influenciada por juicios estadísticos. Eso incluye a cualquier persona que tome medicamentos o se someta a una cirugía, conduce o viaja en vehículos, se invierte en bolsa, tiene seguro de vida o depende de pronósticos meteorológicos precisos ... y la lista continúa. Similar, muchas agencias reguladoras dependen de las estadísticas para tomar decisiones todos los días.

    Los científicos deben tener el lenguaje para indicar que un estudio, o grupo de estudios, proporcionó evidencia significativa a favor de una relación o un efecto. La significación estadística es el término que sirve para este propósito.

    Los grupos detrás de este movimiento

    La hostilidad hacia el término "significación estadística" surge de dos grupos.

    El primero está compuesto en gran parte por científicos decepcionados cuando sus estudios arrojan p =0,06. En otras palabras, aquellos cuyos estudios simplemente no hacen el corte. Estos son en gran parte científicos que consideran que el estándar 0.05 es un obstáculo demasiado alto para ser publicados en las revistas académicas que son una fuente importante de conocimiento académico, así como de tenencia y promoción.

    El segundo grupo está preocupado por la falta de replicación de estudios científicos, y culpan a las pruebas de significación en parte por este fracaso.

    Por ejemplo, un grupo de científicos repitió recientemente 100 experimentos de psicología publicados. Noventa y siete de los 100 estudios originales informaron un hallazgo estadísticamente significativo (p <0,05), pero solo 36 de los experimentos repetidos también pudieron lograr un resultado significativo.

    El fracaso de tantos estudios para replicar se puede atribuir en parte al sesgo de publicación, que resulta cuando solo se publican hallazgos significativos. El sesgo de publicación hace que los científicos sobreestimen la magnitud de un efecto, como la relación entre dos variables, haciendo que la replicación sea menos probable.

    Lo que complica aún más la situación es el hecho de que investigaciones recientes muestran que el límite del valor p no proporciona mucha evidencia de que se haya encontrado una relación real. De hecho, en estudios de replicación en ciencias sociales, ahora parece que los valores p cercanos al umbral estándar de 0.05 probablemente significan que una afirmación científica es incorrecta. Es solo cuando el valor p es mucho menor, tal vez menos de 0,005, que es probable que las afirmaciones científicas muestren una relación real.

    La confusión que conduce a este movimiento

    Muchos no estadísticos confunden el valor p con la probabilidad de que no se haya realizado ningún descubrimiento.

    Veamos un ejemplo del artículo de Nature. Dos estudios examinaron el aumento del riesgo de enfermedad después de tomar un medicamento. Ambos estudios estimaron que los pacientes tenían un 20 por ciento más de riesgo de contraer la enfermedad si tomaban el medicamento que si no lo tomaban. En otras palabras, ambos estudios estimaron el riesgo relativo en 1,20.

    Sin embargo, el riesgo relativo estimado de un estudio fue más preciso que el otro, porque su estimación se basó en los resultados de muchos más pacientes. Por lo tanto, la estimación de un estudio fue estadísticamente significativa, y la estimación del otro no.

    Los autores citan esta inconsistencia, que un estudio obtuvo un resultado significativo y el otro no, como evidencia de que la importancia estadística conduce a una mala interpretación de los resultados científicos.

    Sin embargo, Creo que un resumen razonable es simplemente que un estudio recopiló evidencia estadísticamente significativa y otro no, pero las estimaciones de ambos estudios sugirieron que el riesgo relativo estaba cerca de 1,2.

    A dónde ir desde aquí

    Estoy de acuerdo con el artículo de Nature y el editorial de The American Statistician de que los datos recopilados de todos los estudios científicos bien diseñados deben ponerse a disposición del público. con resúmenes completos de análisis estadísticos. Junto con los valores p de cada estudio, es importante publicar estimaciones de los tamaños del efecto y los intervalos de confianza para estas estimaciones, así como descripciones completas de todos los análisis y procesamiento de datos.

    Por otra parte, Solo los estudios que proporcionen pruebas sólidas a favor de asociaciones importantes o nuevos efectos deben publicarse en revistas de primer nivel. Para estas revistas, Los estándares de evidencia deben incrementarse requiriendo valores p más pequeños para el informe inicial de relaciones y nuevos descubrimientos. En otras palabras, hacer que los científicos publiquen resultados de los que estén aún más seguros.

    La conclusión es que desmantelar los estándares aceptados de evidencia estadística disminuirá la incertidumbre que tienen los científicos al publicar sus propias investigaciones. Pero también aumentará la incertidumbre del público al aceptar los hallazgos que publican, y eso puede ser problemático.

    Este artículo se ha vuelto a publicar de The Conversation con una licencia de Creative Commons. Lea el artículo original.




    © Ciencia https://es.scienceaq.com