Tabla de contenido
El tutorial explica los fundamentos de la correlación de Spearman en un lenguaje sencillo y muestra cómo calcular el coeficiente de correlación de rangos de Spearman en Excel.
Cuando se realiza un análisis de correlación en Excel, en la mayoría de los casos se utiliza la correlación de Pearson. Sin embargo, dado que el coeficiente de correlación de Pearson sólo mide una relación lineal entre dos variables, no funciona para todos los tipos de datos: las variables pueden estar fuertemente asociadas de forma no lineal y aun así tener un coeficiente cercano a cero. En tales circunstancias, se puede utilizar el coeficiente de Spearmanen lugar de la de Pearson.
Correlación de Spearman: conceptos básicos
En Correlación de Spearman es la versión no paramétrica del coeficiente de correlación de Pearson que mide el grado de asociación entre dos variables en función de sus rangos.
En Correlación producto-momento de Pearson pone a prueba la lineal relación entre dos variables continuas. Lineal significa una relación cuando dos variables cambian en la misma dirección a un ritmo constante.
Correlación de rango de Spearman evalúa el monotónica En una relación monótona, las variables también tienden a cambiar juntas, pero no necesariamente a un ritmo constante.
Cuándo hacer la correlación de Spearman
El análisis de correlación de Spearman se utilizará en cualquiera de las siguientes circunstancias cuando no se cumplan los supuestos subyacentes de la correlación de Pearson:
- Si sus datos muestran un no lineal relación o no se distribuyen normalmente.
- Si al menos una variable es ordinal Si los valores pueden colocarse en orden "primero, segundo, tercero...", se trata de datos ordinales.
- Si hay valores atípicos A diferencia de la correlación de Pearson, la correlación de Spearman no es sensible a los valores atípicos porque realiza cálculos sobre los rangos, por lo que la diferencia entre los valores reales no tiene significado.
Por ejemplo, puede utilizar la correlación de Spearman para encontrar las respuestas a las siguientes preguntas:
- ¿Las personas con un mayor nivel educativo se preocupan más por el medio ambiente?
- ¿Está relacionado el número de síntomas que presenta un paciente con su disposición a tomar medicación?
Coeficiente de correlación de Spearman
En estadística, el Coeficiente de correlación de Spearman se representa mediante r s o la letra griega ρ ("rho"), por lo que a menudo se denomina Rho de Spearman .
El coeficiente de correlación de rangos de Spearman mide tanto la fuerza como la dirección de la relación entre los rangos de los datos. Puede tener cualquier valor entre -1 y 1, y cuanto más se acerque el valor absoluto del coeficiente a 1, más fuerte será la relación:
- 1 es una correlación positiva perfecta
- -1 es una correlación negativa perfecta
- 0 es ninguna correlación
Fórmula de correlación de rangos de Spearman
Dependiendo de si hay o no empates en la clasificación (la misma clasificación asignada a dos o más observaciones), el coeficiente de correlación de Spearman puede calcularse con una de las fórmulas siguientes.
Si hay sin filas empatadas basta con una fórmula más sencilla:
Dónde:
- d i es la diferencia entre un par de rangos
- n es el número de observaciones
Para hacer frente a filas empatadas Si se utiliza la fórmula de correlación de Spearman completa, que es una versión ligeramente modificada de la r de Pearson:
Dónde:
- R(x) y R(y) son los rangos del x y y variables
- R(x) y R(y) son los rangos medios
Cómo calcular la correlación de Spearman en Excel con la función CORREL
Lamentablemente, Excel no tiene una función incorporada para calcular el coeficiente de correlación de rangos de Spearman. Sin embargo, eso no significa que tengas que devanarte los sesos con las fórmulas anteriores. Manipulando un poco Excel, podemos llegar a una forma mucho más sencilla de hacer la correlación de Spearman.
Como ejemplo, intentemos averiguar si nuestra actividad física tiene alguna relación con nuestra tensión arterial. En la columna B, tenemos el número de minutos que 10 hombres de la misma edad pasan diariamente en un gimnasio, y en la columna C, tenemos su tensión arterial sistólica.
Para hallar el coeficiente de correlación de Spearman en Excel, siga estos pasos:
- Clasifique sus datos
Dado que la correlación de Spearman evalúa las asociaciones entre dos variables en función de sus rangos, es necesario clasificar los datos de origen. Esto se puede hacer rápidamente utilizando la función RANK.AVG de Excel.
Para clasificar la primera variable (actividad física), introduzca la siguiente fórmula en D2 y, a continuación, arrástrela hasta D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Para clasificar la segunda variable (presión arterial), pon la siguiente fórmula en la celda E2 y cópiala en la columna:
=RANK.AVG(C2,$C$2:$C$11,0)
Para que las fórmulas funcionen correctamente, asegúrese de bloquear los rangos con referencias de celda absolutas.
Llegados a este punto, sus datos de origen deberían tener un aspecto similar al siguiente:
- Hallar el coeficiente de correlación de Spearman
Una vez establecidos los rangos, podemos utilizar la función CORREL de Excel para obtener la rho de Spearman:
=CORREL(D2:D11, E2:E11)
La fórmula arroja un coeficiente de -0,7576 (redondeado a 4 dígitos), lo que muestra una correlación negativa bastante fuerte y nos permite concluir que cuanto más ejercicio hace una persona, más baja es su tensión arterial.
El coeficiente de correlación de Pearson para la misma muestra (-0,7445) indica una correlación un poco más débil, pero aún estadísticamente significativa:
Lo bueno de este método es que es rápido, fácil y funciona independientemente de si hay o no empates en la clasificación.
Calcular el coeficiente de correlación de Spearman en Excel con la fórmula tradicional
Si no está del todo seguro de que la función CORREL ha calculado correctamente la rho de Spearman, puede verificar el resultado con la fórmula tradicional utilizada en estadística. He aquí cómo hacerlo:
- Hallar la diferencia entre cada par de rangos ( d ) restando un rango del otro:
=D2-E2
Esta fórmula va a F2 y se copia en la columna.
- Elevar cada diferencia de rango a la potencia de dos ( d2 ):
=F2^2
Esta fórmula va a la columna G.
- Suma las diferencias al cuadrado:
=SUMA(G2:G11)
Esta fórmula puede ir a cualquier celda en blanco, G12 en nuestro caso.
A partir de la siguiente captura de pantalla, probablemente comprenderá mejor la disposición de los datos:
- Dependiendo de si su conjunto de datos tiene rangos empatados o no, utilice una de estas fórmulas para calcular el coeficiente de correlación de Spearman.
En nuestro ejemplo, no hay empates, por lo que podemos utilizar una fórmula más sencilla:
Con d2 igual a 290, y n (número de observaciones) igual a 10, la fórmula sufre las siguientes transformaciones:
Como resultado, se obtiene -0,757575758, que coincide perfectamente con el coeficiente de correlación de Spearman calculado en el ejemplo anterior.
En Microsoft Excel, los cálculos anteriores pueden realizarse con la siguiente ecuación:
=1-(6*G12/(10*(10^2-1)))
Donde G12 es la suma de las diferencias de rango al cuadrado (d2).
Cómo realizar la correlación de Spearman en Excel mediante un gráfico
Los coeficientes de correlación en Excel sólo miden relaciones lineales (Pearson) o monótonas (Spearman). Sin embargo, son posibles otras asociaciones. Así que, independientemente de la correlación que hagas, siempre es buena idea representar la relación entre las variables en un gráfico.
Para dibujar un gráfico de correlación de los datos clasificados, haga lo siguiente:
- Calcule los rangos utilizando la función RANK.AVG como se explica en este ejemplo.
- Selecciona dos columnas con los rangos.
- Inserte un gráfico de dispersión XY. Para ello, haga clic en el botón Dispersión gráfico en el icono Insertar en la pestaña Chats grupo.
- Añada una línea de tendencia al gráfico. La forma más rápida es hacer clic en el botón Elementos del gráfico botón> Añadir línea de tendencia... .
- Visualice el valor R-cuadrado en el gráfico. Haga doble clic en la línea de tendencia para abrir su panel, cambie a la opción Opciones de líneas de tendencia y seleccione la pestaña Mostrar el valor R-cuadrado en el gráfico caja.
- Muestra más dígitos en el valor R2 para una mayor precisión.
Como resultado, obtendrá una representación visual de la relación entre los rangos. Además, obtendrá el Coeficiente de determinación (R2), cuya raíz cuadrada es el coeficiente de correlación de Pearson (r). Pero como se han trazado los datos clasificados, esta r de Pearson no es otra cosa que la rho de Spearman.
Nota: R-cuadrado es siempre un número positivo, por lo que el coeficiente de correlación de Spearman deducido también será siempre positivo. Para añadir un signo apropiado, basta con mirar la línea del gráfico de correlación: una pendiente ascendente indica una correlación positiva (signo más) y una pendiente descendente indica una correlación negativa (signo menos).
En nuestro caso, R2 es igual a 0,5739210285. Utiliza la función SQRT para hallar la raíz cuadrada:
=SQRT(0.5739210285)
...y obtendrás el ya conocido coeficiente de 0,757575758.
La pendiente descendente del gráfico muestra una correlación negativa, por lo que añadimos el signo menos y obtenemos el coeficiente de correlación de Spearman correcto de -0,757575758.
Así es como se puede calcular el coeficiente de correlación de Spearman en Excel. Para ver más de cerca los ejemplos tratados en este tutorial, puede descargarse nuestro libro de trabajo de ejemplo. Le agradezco su lectura y espero verle en nuestro blog la semana que viene.
Cuaderno de prácticas
Correlación de rangos de Spearman en Excel (archivo .xlsx)