La significación estadística es un indicador objetivo de si los resultados de un estudio son o no matemáticamente "reales" y estadísticamente defendibles, y no solo una casualidad. Las pruebas de significación de uso común buscan diferencias en los medios de los conjuntos de datos o diferencias en las varianzas de los conjuntos de datos. El tipo de prueba que se aplica depende del tipo de datos que se analizan. Depende de los investigadores determinar qué tan importantes requieren que sean los resultados, en otras palabras, cuánto riesgo están dispuestos a asumir de estar equivocados. Por lo general, los investigadores están dispuestos a aceptar un nivel de riesgo del 5 por ciento.
Error de tipo I: rechazar erróneamente la hipótesis nula
Los experimentos se realizan para probar hipótesis específicas o preguntas experimentales con una expectativa resultado. Una hipótesis nula es aquella que no detecta diferencias entre los dos conjuntos de datos que se comparan. En un ensayo clínico, por ejemplo, la hipótesis nula podría ser que no hay diferencia en la mejoría entre los pacientes que reciben el fármaco del estudio y los pacientes que reciben el placebo. Si el investigador rechaza erróneamente esta hipótesis nula cuando en realidad es cierto, en otras palabras, si "detectan" una diferencia entre los dos grupos de pacientes cuando realmente no hubo diferencia, entonces han cometido un error de Tipo I. Los investigadores determinan de antemano cuánto riesgo de cometer un error de Tipo I están dispuestos a aceptar. Este riesgo se basa en un valor p máximo que aceptarán antes de rechazar la hipótesis nula, y se llama alfa.
Error de tipo II: rechazar erróneamente la hipótesis alternativa
Una hipótesis alternativa es uno que detecta una diferencia entre los dos conjuntos de datos que se comparan. En el caso del ensayo clínico, esperaría ver diferentes niveles de mejoría en los pacientes que reciben el fármaco del estudio y en los pacientes que reciben el placebo. Si los investigadores no rechazan la hipótesis nula cuando deberían, en otras palabras, si "detectan" ninguna diferencia entre los dos grupos de pacientes cuando realmente hubo una diferencia, entonces han cometido un error Tipo II.
Determinación del nivel de importancia
Cuando los investigadores realizan una prueba de significación estadística y el valor de p resultante es menor que el nivel de riesgo considerado aceptable, el resultado de la prueba se considera estadísticamente significativo. En este caso, la hipótesis nula - la hipótesis de que no hay diferencia entre los dos grupos - es rechazada. En otras palabras, los resultados indican que hay una diferencia en la mejoría entre los pacientes que reciben el fármaco del estudio y los pacientes que reciben el placebo.
Elección de una prueba de importancia
Hay varias pruebas estadísticas diferentes para elegir de. Una prueba t estándar compara los promedios de dos conjuntos de datos, como los datos de nuestros medicamentos de estudio y nuestros datos de placebo. Una prueba t pareada se usa para detectar diferencias en el mismo conjunto de datos, como un estudio antes y después. Un Análisis de Varianza de una vía (ANOVA) puede comparar los medios de tres o más conjuntos de datos, y un ANOVA bidireccional compara los medios de dos o más conjuntos de datos en respuesta a dos variables independientes diferentes, como las diferentes fortalezas del estudio de drogas. Una regresión lineal compara los medios de los conjuntos de datos a lo largo de un gradiente de tratamientos o tiempo. Cada prueba estadística dará como resultado medidas de significancia, o alfa, que se pueden usar para interpretar los resultados de la prueba.