La regresión lineal es un método estadístico para examinar la relación entre una variable dependiente, denotada como y, Regresión lineal está limitada a las relaciones lineales Por su naturaleza, la regresión lineal solo analiza las relaciones lineales entre variables dependientes e independientes. Es decir, supone que hay una relación lineal entre ellos. A veces esto es incorrecto. Por ejemplo, la relación entre el ingreso y la edad es curva, es decir, el ingreso tiende a aumentar en las primeras etapas de la adultez, se aplana en la adultez posterior y disminuye después de que la gente se jubila. Puede ver si esto es un problema al observar representaciones gráficas de las relaciones. Regresión lineal solo observa la media de la variable dependiente La regresión lineal analiza una relación entre la media de la variable dependiente y las variables independientes. Por ejemplo, si observa la relación entre el peso al nacer de los bebés y las características de la madre, como la edad, la regresión lineal tendrá en cuenta el peso promedio de los bebés nacidos de madres de diferentes edades. Sin embargo, a veces es necesario observar los extremos de la variable dependiente, por ejemplo, los bebés están en riesgo cuando sus pesos son bajos, por lo que querría ver los extremos en este ejemplo. Así como el mal no es una descripción completa de una sola variable, la regresión lineal no es una descripción completa de las relaciones entre las variables. Puede hacer frente a este problema utilizando la regresión de cuantiles. La regresión lineal es sensible a valores atípicos Los valores atípicos son datos que son sorprendentes. Los valores atípicos pueden ser univariables (basados en una variable) o multivariables. Si busca la edad y el ingreso, los valores atípicos univariados serían cosas como una persona que tiene 118 años o una que ganó $ 12 millones el año pasado. Un valor atípico multivariado sería un joven de 18 años que ganó $ 200,000. En este caso, ni la edad ni los ingresos son muy extremos, pero muy pocas personas de 18 años ganan tanto dinero. Los valores atípicos pueden tener enormes efectos en la regresión. Puede resolver este problema solicitando estadísticas de influencia de su software estadístico. Los datos deben ser independientes La regresión lineal supone que los datos son independientes. Eso significa que los puntajes de un sujeto (como una persona) no tienen nada que ver con los de otro. Esto es a menudo, pero no siempre, sensato. Dos casos comunes en los que no tiene sentido son la agrupación en el espacio y el tiempo. Un ejemplo clásico de agrupación en el espacio son los puntajes de los exámenes de los estudiantes, cuando se tienen estudiantes de varias clases, grados, escuelas y distritos escolares. Los estudiantes de la misma clase tienden a ser similares de muchas maneras, es decir, a menudo provienen de los mismos vecindarios, tienen los mismos profesores, etc. Por lo tanto, no son independientes. Ejemplos de conglomerados en el tiempo son cualquier estudio en el que midas los mismos temas varias veces. Por ejemplo, en un estudio de dieta y peso, puede medir a cada persona varias veces. Estos datos no son independientes porque lo que una persona pesa en una ocasión está relacionado con lo que pesa en otras ocasiones. Una forma de lidiar con esto es con modelos multinivel.
y una o más variables independientes, denotada como x
. La variable dependiente debe ser continua, ya que puede tomar cualquier valor, o al menos cerca de continuo. Las variables independientes pueden ser de cualquier tipo. Aunque la regresión lineal no puede mostrar la causalidad por sí misma, la variable dependiente generalmente se ve afectada por las variables independientes.