Cuando crea modelos en estadísticas, generalmente los probará, asegurándose de que los modelos coincidan con situaciones del mundo real. El residual es un número que le ayuda a determinar qué tan cerca está su modelo teorizado del fenómeno en el mundo real. Los residuos no son demasiado difíciles de entender: son solo números que representan qué tan lejos está un punto de datos de lo que "debería estar" según el modelo predicho.
Definición matemática
Matemáticamente, un residuo es la diferencia entre un punto de datos observado y el valor esperado (o estimado) de lo que ese punto de datos debería haber sido. La fórmula para un residuo es R \u003d O - E, donde “O” significa el valor observado y “E” significa el valor esperado. Esto significa que los valores positivos de R muestran valores más altos de lo esperado, mientras que los valores negativos muestran valores más bajos de lo esperado. Por ejemplo, puede tener un modelo estadístico que dice que cuando el peso de un hombre es de 140 libras, su altura debe ser de 6 pies o 72 pulgadas. Cuando salga y recopile datos, puede encontrar a alguien que pese 140 libras pero que mida 5 pies 9 pulgadas o 69 pulgadas. El residual es entonces 69 pulgadas menos 72 pulgadas, lo que le da un valor negativo de 3 pulgadas. En otras palabras, el punto de datos observado está 3 pulgadas por debajo del valor esperado.
Verificar modelos
Los residuos son especialmente útiles cuando desea verificar si su modelo teorizado funciona en el mundo real. Cuando crea un modelo y calcula sus valores esperados, está teorizando. Pero cuando vaya a recopilar datos, es posible que los datos no coincidan con el modelo. Una forma de encontrar este desajuste entre su modelo y el mundo real es calcular los residuos. Por ejemplo, si encuentra que sus residuos están consistentemente lejos de sus valores estimados, es posible que su modelo no tenga una teoría subyacente sólida. Una manera fácil de usar los residuos de esta manera es trazarlos.
Graficando Residuos
Cuando calcula los residuos, tiene un puñado de números, lo cual es difícil de interpretar para los humanos. Trazar los residuos a menudo puede mostrarle patrones. Estos patrones pueden llevarlo a determinar si el modelo se ajusta bien. Dos aspectos de los residuos pueden ayudarlo a analizar una gráfica de residuos. Primero, los residuos para un buen modelo deben estar dispersos en ambos lados de cero. Es decir, una gráfica de residuos debe tener aproximadamente la misma cantidad de residuos negativos que los residuos positivos. En segundo lugar, los residuos deben parecer aleatorios. Si ve un patrón en su gráfico residual, como que tienen un patrón lineal o curvo claro, su modelo original podría tener un error.
Residuos especiales: valores atípicos
Valores atípicos, o residuos de valores extremadamente grandes , aparecen inusualmente lejos de los otros puntos en su parcela de residuos. Cuando encuentre un residuo que sea un valor atípico en su conjunto de datos, debe pensarlo detenidamente. Algunos científicos recomiendan eliminar los valores atípicos porque son "anomalías" o casos especiales. Otros recomiendan más investigación sobre por qué tiene un residuo tan grande. Por ejemplo, puede estar haciendo un modelo de cómo el estrés afecta las calificaciones escolares y teorizar que más estrés generalmente significa peores calificaciones. Si sus datos muestran que esto es cierto, excepto para una persona, que tiene muy poco estrés y muy bajas calificaciones, puede preguntarse por qué. Tal persona podría simplemente no preocuparse por nada, incluida la escuela, que explique el gran residuo. En este caso, podría considerar eliminar el residuo de su conjunto de datos porque desea modelar solo a los estudiantes que se preocupan por la escuela.