En estadística, la distribución gaussiana o normal se usa para caracterizar sistemas complejos con muchos factores. Como se describe en The History of Statistics de Stephen Stigler, Abraham De Moivre inventó la distribución que lleva el nombre de Karl Fredrick Gauss. La contribución de Gauss radica en su aplicación de la distribución al enfoque de mínimos cuadrados para minimizar el error en el ajuste de datos con una línea de mejor ajuste. Por lo tanto, lo convirtió en la distribución de error más importante en las estadísticas.
Motivación
¿Cuál es la distribución de una muestra de datos? ¿Qué sucede si no conoce la distribución subyacente de los datos? ¿Hay alguna manera de probar hipótesis sobre los datos sin conocer la distribución subyacente? Gracias al Teorema del Límite Central, la respuesta es sí.
Declaración del Teorema
Establece que una media de muestra de una población infinita es aproximadamente normal, o gaussiana, con la misma significa que la población subyacente, y la varianza igual a la varianza de la población dividida por el tamaño de la muestra. La aproximación mejora a medida que el tamaño de la muestra aumenta.
La afirmación de aproximación a veces se expresa erróneamente como una conclusión sobre la convergencia a una distribución normal. Dado que la distribución normal aproximada cambia a medida que aumenta el tamaño de la muestra, dicha afirmación es engañosa.
El teorema fue desarrollado por Pierre Simon Laplace.
Por qué está en todas partes
Distribuciones normales están omnipresentes La razón proviene del Teorema del Límite Central. A menudo, cuando se mide un valor, es el efecto suma de muchas variables independientes. Por lo tanto, el valor que se mide a sí mismo tiene una calidad media de la muestra. Por ejemplo, una distribución de las actuaciones de los atletas puede tener forma de campana, como resultado de las diferencias en la dieta, el entrenamiento, la genética, el entrenamiento y la psicología. Incluso las alturas de los hombres tienen una distribución normal, siendo una función de muchos factores biológicos.
Copulas gaussianas
Lo que se llama una "función de cópula" con una distribución gaussiana estaba en las noticias en 2009 debido a su uso para evaluar el riesgo de invertir en bonos garantizados. El mal uso de la función fue instrumental en la crisis financiera de 2008-2009. Aunque hubo muchas causas de la crisis, en retrospectiva las distribuciones gaussianas probablemente no deberían haber sido utilizadas. Una función con una cola más gruesa habría asignado una mayor probabilidad a los eventos adversos.
Derivación
El Teorema del Límite Central se puede probar en muchas líneas mediante el análisis de la función generadora de momento (mgf) de (muestra media - media de la población) /? (varianza de la población /tamaño de la muestra) en función del mgf de la población subyacente. La parte de aproximación del teorema se introduce al expandir el mgf de la población subyacente como una serie de potencias, y luego muestra que la mayoría de los términos son insignificantes a medida que el tamaño de muestra aumenta.
Puede demostrarse en muchas menos líneas usando un Taylor expansión en la ecuación característica de la misma función y ampliación del tamaño de la muestra.
Conveniencia computacional
Algunos modelos estadísticos suponen que los errores son gaussianos. Esto permite la distribución de funciones de variables normales, como la distribución de chi-cuadrado y F, para usar en la prueba de hipótesis. Específicamente, en la prueba F, la estadística F se compone de una relación de distribuciones de chi-cuadrado, que a su vez son funciones de un parámetro de varianza normal. La relación de los dos hace que la varianza se cancele, permitiendo la prueba de hipótesis sin conocimiento de las varianzas aparte de su normalidad y constancia.