Un valor atípico es un valor en un conjunto de datos que está lejos de los otros valores. Los valores atípicos pueden ser causados por errores experimentales o de medición, o por una población de cola larga. En los casos anteriores, puede ser deseable identificar valores atípicos y eliminarlos de los datos antes de realizar un análisis estadístico, ya que pueden descartar los resultados para que no representen con precisión la población de muestra. La forma más sencilla de identificar valores atípicos es con el método cuartil.
Ordene los datos en orden ascendente. Por ejemplo, tome el conjunto de datos {4, 5, 2, 3, 15, 3, 3, 5}. Ordenado, el conjunto de datos de ejemplo es {2, 3, 3, 3, 4, 5, 5, 15}.
Encuentra la mediana. Este es el número en el que la mitad de los puntos de datos son más grandes y la mitad son más pequeños. Si hay un número par de puntos de datos, los promedios se promedian. Para el conjunto de datos de ejemplo, los puntos medios son 3 y 4, por lo que la mediana es (3 + 4) /2 = 3.5.
Encuentra el cuartil superior, Q2; este es el punto de datos en el que el 25 por ciento de los datos son más grandes. Si el conjunto de datos es par, promedie los 2 puntos alrededor del cuartil. Para el conjunto de datos de ejemplo, esto es (5 + 5) /2 = 5.
Encuentra el cuartil inferior, Q1; este es el punto de datos en el cual el 25 por ciento de los datos son más pequeños. Si el conjunto de datos es par, promedie los 2 puntos alrededor del cuartil. Para los datos de ejemplo, (3 + 3) /2 = 3.
Reste el cuartil inferior del cuartil superior para obtener el rango intercuartílico, IQ. Para el conjunto de datos de ejemplo, Q2 - Q1 = 5 - 3 = 2.
Multiplique el rango intercuartílico por 1.5. Agregue esto al cuartil superior y restelo del cuartil inferior. Cualquier punto de datos fuera de estos valores es un valor atípico leve. Para el conjunto de ejemplos, 1.5 x 2 = 3; por lo tanto, 3 - 3 = 0 y 5 + 3 = 8. Por lo tanto, cualquier valor inferior a 0 o superior a 8 sería un valor atípico leve. Esto significa que 15 califica como un valor atípico leve.
Multiplique el rango intercuartílico por 3. Agregue esto al cuartil superior y restelo del cuartil inferior. Cualquier punto de datos fuera de estos valores es un extremo atípico. Para el ejemplo establecido, 3 x 2 = 6; por lo tanto, 3 - 6 = -3 y 5 + 6 = 11. Por lo tanto, cualquier valor inferior a -3 o superior a 11 sería un valor atípico extremo. Esto significa que 15 califica como extremo extremo atípico.
Consejo
Los valores atípicos extremos son más indicativos de un punto de datos incorrecto que un valor atípico leve.