Los estadísticos y científicos a menudo tienen el requisito de investigar la relación entre dos variables, comúnmente llamadas x e y. El propósito de probar cualquiera de estas dos variables generalmente es ver si hay algún vínculo entre ellas, conocido como una correlación en la ciencia. Por ejemplo, un científico podría querer saber si las horas de exposición al sol pueden estar relacionadas con las tasas de cáncer de piel. Para describir matemáticamente la fuerza de una correlación entre dos variables, tales investigadores a menudo usan R2.
Regresión lineal
Los estadísticos usan la técnica de regresión lineal para encontrar la línea recta que mejor se ajusta a una serie de x e y pares de datos Lo hacen a través de una serie de cálculos que derivan la ecuación de la mejor línea. Esta descripción matemática de la línea será una ecuación lineal y tendrá la forma general de y \u003d mx + b, donde x e y son las dos variables en los pares de datos, m es la pendiente de la línea y b es su intersección en y. Coeficiente de correlación
Los cálculos que encuentran la mejor línea recta producirán una ecuación lineal para ajustarse a cualquier conjunto de datos, incluso si esos datos no son realmente muy lineales. Para tener una indicación de qué tan bien los datos realmente se ajustan a una línea recta, los estadísticos también calculan un número conocido como coeficiente de correlación. Se le da el símbolo r o R y es una medida de cuán estrechamente alineados están los pares de datos con la mejor línea recta que los atraviesa.
La importancia de R
R puede tener cualquier valor entre -1 y 1 Un valor negativo de R simplemente significa que la mejor línea recta se inclina hacia abajo moviéndose de izquierda a derecha, en lugar de hacia arriba. Cuanto más cerca esté R de cualquiera de los dos extremos, mejor será el ajuste de los puntos de datos a la línea, con -1 o 1 siendo un ajuste perfecto y un valor R de cero significa que no hay ajuste y los puntos son totalmente al azar Si los puntos de datos están bien alineados con la línea recta, se dice que existe alguna correlación entre ellos, de ahí el nombre del coeficiente de correlación para R.
R2
Algunos estadísticos prefieren trabajar con el valor de R2 , que es simplemente el coeficiente de correlación al cuadrado, o multiplicado por sí mismo, y se conoce como el coeficiente de determinación. R2 es muy similar a R y también describe la correlación entre las dos variables, sin embargo, también es ligeramente diferente. Mide el porcentaje de variación en la variable y que se puede atribuir a la variación en la variable x. Un valor R2 de 0.9, por ejemplo, significa que el 90 por ciento de la variación en los datos y se debe a la variación en los datos x. Esto no significa necesariamente que x realmente esté afectando a y, sino que parece estar haciéndolo.