La regresión múltiple se utiliza para examinar la relación entre varias variables independientes y una variable dependiente. Si bien los modelos de regresión múltiple le permiten analizar las influencias relativas de estas variables independientes o predictoras en la variable dependiente o de criterio, estos conjuntos de datos a menudo complejos pueden llevar a conclusiones falsas si no se analizan correctamente.
Ejemplos de regresión múltiple
Un agente de bienes raíces podría usar la regresión múltiple para analizar el valor de las casas. Por ejemplo, podría usar como variables independientes el tamaño de las casas, sus edades, el número de habitaciones, el precio promedio de la vivienda en el vecindario y la proximidad a las escuelas. Al trazarlos en un modelo de regresión múltiple, podría usar estos factores para ver su relación con los precios de las viviendas como la variable de criterio.
Otro ejemplo de uso de un modelo de regresión múltiple podría ser alguien en la determinación de los recursos humanos. El salario de los puestos directivos: la variable de criterio. Las variables predictoras podrían ser la antigüedad de cada gerente, la cantidad promedio de horas trabajadas, la cantidad de personas que se administran y el presupuesto departamental del gerente.
Ventajas de la regresión múltiple
Hay dos ventajas principales para analizar datos usando Un modelo de regresión múltiple. El primero es la capacidad de determinar la influencia relativa de una o más variables predictoras al valor del criterio. El agente de bienes raíces podría encontrar que el tamaño de las viviendas y el número de habitaciones tienen una fuerte correlación con el precio de una vivienda, mientras que la proximidad a las escuelas no tiene ninguna correlación, o incluso una correlación negativa si es principalmente un retiro comunidad.
La segunda ventaja es la capacidad de identificar valores atípicos o anomalías. Por ejemplo, al revisar los datos relacionados con los salarios de la gerencia, el gerente de recursos humanos pudo encontrar que la cantidad de horas trabajadas, el tamaño del departamento y su presupuesto tenían una fuerte correlación con los salarios, mientras que la antigüedad no. Alternativamente, podría ser que todos los valores predictores enumerados se correlacionen con cada uno de los salarios que se examinan, excepto un gerente que recibió un pago excesivo en comparación con los demás.
Desventajas de la regresión múltiple
Cualquier desventaja de usar un modelo de regresión múltiple generalmente se reduce a los datos que se usan. Dos ejemplos de esto son el uso de datos incompletos y la conclusión falsa de que una correlación es una causa.
Al revisar el precio de las viviendas, por ejemplo, suponga que el agente de bienes raíces miró solo 10 viviendas, siete de las cuales fueron compradas por padres jóvenes. En este caso, la relación entre la proximidad de las escuelas puede llevarla a creer que esto tuvo un efecto en el precio de venta de todas las viviendas que se venden en la comunidad. Esto ilustra las trampas de los datos incompletos. Si hubiera utilizado una muestra más grande, podría haber descubierto que, de cada 100 viviendas vendidas, solo el diez por ciento de los valores de las viviendas estaban relacionados con la proximidad de una escuela. Si hubiera utilizado las edades de los compradores como un valor predictivo, podría haber descubierto que los compradores más jóvenes estaban dispuestos a pagar más por las viviendas en la comunidad que los compradores más viejos.
En el ejemplo de los salarios de administración, supongamos que un valor atípico que tenía un presupuesto más pequeño, menos antigüedad y con menos personal para administrar, pero estaba ganando más que nadie. El gerente de recursos humanos podría mirar los datos y concluir que este individuo está siendo pagado en exceso. Sin embargo, esta conclusión sería errónea si no tuviera en cuenta que este gerente estaba a cargo del sitio web de la compañía y tenía un conjunto de habilidades muy codiciado en seguridad de red.