La regresión lineal es un método estadístico para examinar la relación entre una variable dependiente, denotada como y, Por su naturaleza, la regresión lineal solo considera las relaciones lineales entre dependientes y variables independientes. Es decir, supone que existe una relación lineal entre ellos. A veces esto es incorrecto. Por ejemplo, la relación entre ingresos y edad es curva, es decir, los ingresos tienden a aumentar en las primeras etapas de la edad adulta, se aplanan en la edad adulta y disminuyen después de que las personas se jubilan. Puede ver si esto es un problema observando las representaciones gráficas de las relaciones. La regresión lineal analiza una relación entre la media de la variable dependiente Por ejemplo, si observa la relación entre el peso al nacer de los bebés y las características maternas como la edad, la regresión lineal analizará el peso promedio de los bebés nacidos de madres de diferentes edades. Sin embargo, a veces es necesario observar los extremos de la variable dependiente, por ejemplo, los bebés están en riesgo cuando su peso es bajo, por lo que querrá ver los extremos en este ejemplo. Solo como la media no es una descripción completa de una sola variable, la regresión lineal no es una descripción completa de las relaciones entre variables. Puede resolver este problema utilizando la regresión cuantil. La regresión lineal es sensible a los valores atípicos Los valores atípicos son datos sorprendentes. Los valores atípicos pueden ser univariados (basados en una variable) o multivariados. Si observa la edad y los ingresos, los valores atípicos univariantes serían cosas como una persona que tiene 118 años o una que ganó $ 12 millones el año pasado. Un valor atípico multivariante sería un joven de 18 años que ganó $ 200,000. En este caso, ni la edad ni el ingreso son muy extremos, pero muy pocas personas de 18 años ganan tanto dinero. Los valores atípicos pueden tener enormes efectos en la regresión. Puede resolver este problema solicitando estadísticas de influencia de su software estadístico. Los datos deben ser independientes La regresión lineal supone que los datos son independientes. Eso significa que los puntajes de un sujeto (como una persona) no tienen nada que ver con los de otro. Esto es a menudo, pero no siempre, sensato. Dos casos comunes en los que no tiene sentido son la agrupación en el espacio y el tiempo. Un ejemplo clásico de agrupación en el espacio son los puntajes de los exámenes de los estudiantes, cuando tienes estudiantes de varias clases, grados, escuelas y distritos escolares. Los estudiantes en la misma clase tienden a ser similares en muchos aspectos, es decir, a menudo provienen de los mismos vecindarios, tienen los mismos maestros, etc. Por lo tanto, no son independientes. Ejemplos de agrupamiento en el tiempo son cualquier estudio en el que midas las mismas materias varias veces. Por ejemplo, en un estudio de dieta y peso, puede medir a cada persona varias veces. Estos datos no son independientes porque lo que pesa una persona en una ocasión está relacionado con lo que pesa en otras ocasiones. Una forma de lidiar con esto es con modelos multinivel.
y una o más variables independientes, denotadas como x
. La variable dependiente debe ser continua, ya que puede tomar cualquier valor, o al menos cerca de continua. Las variables independientes pueden ser de cualquier tipo. Aunque la regresión lineal no puede mostrar causalidad por sí misma, la variable dependiente generalmente se ve afectada por las variables independientes.
La regresión lineal se limita a las relaciones lineales
La regresión lineal solo analiza la media de la variable dependiente