La línea de regresión de mínimos cuadrados (LSRL) es una línea que sirve como una función de predicción para un fenómeno que no es bien conocido. La definición de estadística matemática de una línea de regresión por mínimos cuadrados es la línea que pasa por el punto (0,0) y tiene una pendiente igual al coeficiente de correlación de los datos, después de que los datos han sido estandarizados. Por lo tanto, calcular la línea de regresión de mínimos cuadrados implica estandarizar los datos y encontrar el coeficiente de correlación.
Encontrar el coeficiente de correlación
Organice sus datos para que sea más fácil trabajar con ellos. Use una hoja de cálculo o matriz para separar sus datos en sus valores xy valores y, manteniéndolos vinculados (es decir, asegúrese de que el valor x y el valor y de cada punto de datos se encuentren en la misma fila o columna).
Encuentre los productos cruzados de los valores de x y y. Multiplica el valor xy el valor y para cada punto juntos. Sume estos valores resultantes. Llame al resultado "sxy".
Sume los valores xy los valores y por separado. Llame a estos dos valores resultantes "sx" y "sy", respectivamente.
Cuente el número de puntos de datos. Llame a este valor "n".
Tome la suma de cuadrados para sus datos. Cuadre todos sus valores. Multiplica cada valor x y cada valor y por sí mismo. Llame a los nuevos conjuntos de datos "x2" y "y2" para los valores xy los valores y. Sume todos los valores de x2 y llame al resultado "sx2". Sume todos los valores de y2 y llame al resultado "sy2".
Reste sx * sy /n de sxy. Llame al resultado "num."
Calcule el valor sx2- (sx ^ 2) /n. Llame al resultado "A".
Calcule el valor sy2- (sy ^ 2) /n. Llame al resultado "B."
Tome la raíz cuadrada de A veces B, que se puede mostrar como (A * B) ^ (1/2). Marque el resultado "denom."
Calcule el coeficiente de correlación, "r." El valor de "r" es igual a "num" dividido por "denom", que puede escribirse como num /denom.
Estandarizar los datos y escribir el LSRL
Encontrar los promedios de los valores xy los valores y. Agregue todos los valores x juntos y divida el resultado por "n". Llame a este "mx". Haga lo mismo con los valores y, llamando al resultado "my".
Encuentre las desviaciones estándar para los valores xy los valores y Cree nuevos conjuntos de datos para las x y las y restando la media para cada conjunto de datos de sus datos asociados. Por ejemplo, cada punto de datos para x, "xdat" se convertirá en "xdat-mx". Cuadre los puntos de datos resultantes. Agregue los resultados para cada grupo (x e y) por separado, dividiendo por "n" para cada grupo. Tome la raíz cuadrada de estos dos resultados finales para obtener la desviación estándar para cada grupo. Llame a la desviación estándar para los valores x "sdx" y para los valores y "sdy".
Estandarice los datos. Reste la media para los valores de x de cada valor de x. Divida los resultados por "sdx". Los datos restantes están estandarizados. Llame a este dato "x_". Haga lo mismo con los valores y: restar "my" de cada valor y, dividiendo por "sdy" a medida que avance. Llame a este dato "y_".
Escriba la línea de regresión. Escriba "y_ ^ = rx_", donde "^" es representativo de "hat" - un valor predicho - y "r" es igual al coeficiente de correlación encontrado anteriormente.