La regresión múltiple se usa para examinar la relación entre varias variables independientes y una variable dependiente. Si bien los modelos de regresión múltiple le permiten analizar las influencias relativas de estas variables independientes o predictoras en la variable dependiente o criterio, estos conjuntos de datos a menudo complejos pueden llevar a conclusiones falsas si no se analizan adecuadamente.
< h2> Ejemplos de regresión múltiple
Un agente de bienes raíces podría usar la regresión múltiple para analizar el valor de las casas. Por ejemplo, podría usar como variables independientes el tamaño de las casas, sus edades, el número de habitaciones, el precio promedio de la vivienda en el vecindario y la proximidad a las escuelas. Trazando estos en un modelo de regresión múltiple, ella podría usar estos factores para ver su relación con los precios de los hogares como la variable de criterio.
Otro ejemplo de usar un modelo de regresión múltiple podría ser alguien que determine los recursos humanos el salario de los puestos de gestión: la variable de criterio. Las variables de predicción podrían ser la antigüedad de cada gerente, el número promedio de horas trabajadas, el número de personas que se administran y el presupuesto departamental del gerente.
Ventajas de la regresión múltiple
Hay dos ventajas principales para analizar datos usando un modelo de regresión múltiple. El primero es la capacidad de determinar la influencia relativa de una o más variables de predicción en el valor del criterio. El agente de bienes raíces podría encontrar que el tamaño de las casas y el número de dormitorios tienen una fuerte correlación con el precio de una casa, mientras que la proximidad a las escuelas no tiene ninguna correlación o incluso una correlación negativa si se trata principalmente de un retiro comunidad.
La segunda ventaja es la capacidad de identificar valores atípicos o anomalías. Por ejemplo, al revisar los datos relacionados con los salarios de la gerencia, el gerente de recursos humanos podría encontrar que la cantidad de horas trabajadas, el tamaño del departamento y su presupuesto tenían una fuerte correlación con los salarios, mientras que la antigüedad no. Alternativamente, podría ser que todos los valores del predictor enumerados estuvieran correlacionados con cada uno de los salarios que se estaban examinando, excepto para un gerente que estaba pagando en exceso en comparación con los demás.
Desventajas de la regresión múltiple
Cualquier desventaja de usar un modelo de regresión múltiple generalmente se reduce a los datos que se utilizan. Dos ejemplos de esto son el uso de datos incompletos y la conclusión falsa de que una correlación es una causalidad.
Al revisar el precio de las casas, por ejemplo, supongamos que el agente inmobiliario solo examinó 10 casas, siete de las cuales fueron compradas por padres jóvenes. En este caso, la relación entre la proximidad de las escuelas puede llevarla a creer que esto tuvo un efecto en el precio de venta de todas las viviendas vendidas en la comunidad. Esto ilustra las dificultades de los datos incompletos. Si hubiera utilizado una muestra más grande, podría haber encontrado que, de cada 100 viviendas vendidas, solo el diez por ciento de los valores de las casas estaban relacionados con la proximidad de una escuela. Si hubiera utilizado las edades de los compradores como un valor de predicción, podría haber encontrado que los compradores más jóvenes estaban dispuestos a pagar más por los hogares de la comunidad que los compradores mayores.
En el ejemplo de los salarios de administración, supongamos que hubiera un atípico que tenía un presupuesto más pequeño, menos antigüedad y con menos personal para administrar, pero ganaba más que cualquier otra persona. El gerente de recursos humanos podría ver los datos y concluir que este individuo está pagando en exceso. Sin embargo, esta conclusión sería errónea si no tuviera en cuenta que este gerente estaba a cargo del sitio web de la compañía y tenía un perfil muy codiciado en seguridad de la red.