Sommario
L'esercitazione spiega le basi della correlazione di Spearman in un linguaggio semplice e mostra come calcolare il coefficiente di correlazione di rango di Spearman in Excel.
Quando si esegue l'analisi di correlazione in Excel, nella maggior parte dei casi si ha a che fare con la correlazione di Pearson. Tuttavia, poiché il coefficiente di correlazione di Pearson misura solo una relazione lineare tra due variabili, non funziona per tutti i tipi di dati: le variabili possono essere fortemente associate in modo non lineare e avere comunque un coefficiente vicino allo zero. In tali circostanze, è possibile eseguire il coefficiente di Spearmancorrelazione di rango invece di quella di Pearson.
Correlazione di Spearman: le basi
Il Correlazione di Spearman è la versione non parametrica del coefficiente di correlazione di Pearson che misura il grado di associazione tra due variabili in base ai loro ranghi.
Il Correlazione prodotto-momento di Pearson verifica il lineare Relazione tra due variabili continue. Lineare significa una relazione quando due variabili cambiano nella stessa direzione ad una velocità costante.
Correlazione di rango di Spearman valuta il parametro monotono In una relazione monotona, le variabili tendono a cambiare insieme, ma non necessariamente a un ritmo costante.
Quando fare la correlazione di Spearman
L'analisi di correlazione di Spearman deve essere utilizzata in una delle seguenti circostanze quando non sono soddisfatti i presupposti della correlazione di Pearson:
- Se i dati mostrano una non lineare o non sono distribuiti normalmente.
- Se almeno una variabile è ordinale Se i valori possono essere disposti in ordine "primo, secondo, terzo...", si tratta di dati ordinali.
- Se ci sono significative valori anomali A differenza della correlazione di Pearson, la correlazione di Spearman non è sensibile agli outlier perché esegue i calcoli sui ranghi, quindi la differenza tra i valori effettivi non ha significato.
Ad esempio, è possibile utilizzare la correlazione di Spearman per trovare le risposte alle seguenti domande:
- Le persone con un livello di istruzione più elevato si preoccupano maggiormente dell'ambiente?
- Il numero di sintomi di un paziente è correlato alla sua disponibilità ad assumere farmaci?
Coefficiente di correlazione di Spearman
In statistica, il Coefficiente di correlazione di Spearman è rappresentato da r s o la lettera greca ρ ("rho"), motivo per cui viene spesso chiamato Rho di Spearman .
Il coefficiente di correlazione di rango di Spearman misura sia la forza che la direzione della relazione tra i ranghi dei dati. Può avere un valore qualsiasi compreso tra -1 e 1. Più il valore assoluto del coefficiente è vicino a 1, più forte è la relazione:
- 1 è una correlazione positiva perfetta
- -1 è una correlazione negativa perfetta
- 0 è nessuna correlazione
Formula di correlazione di rango di Spearman
A seconda che ci siano o non ci siano legami nella classifica (lo stesso grado assegnato a due o più osservazioni), il coefficiente di correlazione di Spearman può essere calcolato con una delle seguenti formule.
Se ci sono nessun rango vincolato Una formula più semplice è sufficiente:
Dove:
- d i è la differenza tra una coppia di ranghi
- n è il numero di osservazioni
Per affrontare a pari merito È necessario utilizzare la versione completa della formula di correlazione di Spearman, che è una versione leggermente modificata della r di Pearson:
Dove:
- R(x) e R(y) sono i ranghi degli elementi di x e y variabili
- R(x) e R(y) sono i ranghi medi
Come calcolare la correlazione di Spearman in Excel con la funzione CORREL
Purtroppo Excel non dispone di una funzione integrata per il calcolo del coefficiente di correlazione di rango di Spearman. Tuttavia, questo non significa che dobbiate scervellarvi con le formule di cui sopra. Manipolando un po' Excel, possiamo trovare un modo molto più semplice per eseguire la correlazione di Spearman.
Per esempio, cerchiamo di capire se la nostra attività fisica ha una qualche relazione con la nostra pressione sanguigna. Nella colonna B abbiamo il numero di minuti che 10 uomini della stessa età trascorrono quotidianamente in palestra e nella colonna C abbiamo la loro pressione sanguigna sistolica.
Per trovare il coefficiente di correlazione di Spearman in Excel, eseguire i seguenti passaggi:
- Classificare i dati
Poiché la correlazione di Spearman valuta le associazioni tra due variabili in base al loro rango, è necessario classificare i dati di partenza. Questo può essere fatto rapidamente utilizzando la funzione RANK.AVG di Excel.
Per classificare la prima variabile (attività fisica), inserire la formula seguente in D2 e trascinarla in D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Per classificare la seconda variabile (pressione arteriosa), inserire la seguente formula nella cella E2 e copiarla lungo la colonna:
=RANK.AVG(C2,$C$2:$C$11,0)
Affinché le formule funzionino correttamente, assicurarsi di bloccare gli intervalli con riferimenti di cella assoluti.
A questo punto, i dati di partenza dovrebbero essere simili a questi:
- Trova il coefficiente di correlazione di Spearman
Una volta stabiliti i ranghi, possiamo utilizzare la funzione CORREL di Excel per ottenere il rho di Spearman:
Guarda anche: Riempire gli spazi vuoti in Excel con un valore superiore/inferiore, riempire le celle vuote con 0=CORREL(D2:D11, E2:E11)
La formula restituisce un coefficiente di -0,7576 (arrotondato a 4 cifre), che mostra una correlazione negativa abbastanza forte e ci permette di concludere che più una persona fa esercizio fisico, più la sua pressione sanguigna si abbassa.
Il coefficiente di correlazione di Pearson per lo stesso campione (-0,7445) indica una correlazione un po' più debole, ma comunque statisticamente significativa:
Il bello di questo metodo è che è rapido, facile e funziona indipendentemente dal fatto che ci siano o meno legami nella classifica.
Calcolo del coefficiente di correlazione di Spearman in Excel con la formula tradizionale
Se non si è sicuri che la funzione CORREL abbia calcolato correttamente la rho di Spearman, è possibile verificare il risultato con la formula tradizionale utilizzata in statistica. Ecco come fare:
- Trovare la differenza tra ogni coppia di ranghi ( d ) sottraendo un grado dall'altro:
=D2-E2
Questa formula va in F2 e viene poi copiata lungo la colonna.
- Elevare ogni differenza di rango alla potenza di due ( d2 ):
=F2^2
Questa formula va nella colonna G.
- Sommare le differenze al quadrato:
=SOMMA(G2:G11)
Questa formula può andare in qualsiasi cella vuota, G12 nel nostro caso.
La seguente schermata consente di comprendere meglio la disposizione dei dati:
- A seconda che il vostro set di dati abbia o meno ranghi equiparati, utilizzate una di queste formule per calcolare il coefficiente di correlazione di Spearman.
Nel nostro esempio non ci sono vincoli, quindi possiamo adottare una formula più semplice:
Con d2 pari a 290, e n (numero di osservazioni) pari a 10, la formula subisce le seguenti trasformazioni:
Il risultato è -0,757575758, che concorda perfettamente con il coefficiente di correlazione di Spearman calcolato nell'esempio precedente.
In Microsoft Excel, i calcoli di cui sopra possono essere eseguiti con la seguente equazione:
=1-(6*G12/(10*(10^2-1)))
Dove G12 è la somma delle differenze di rango al quadrato (d2).
Come eseguire la correlazione di Spearman in Excel utilizzando un grafico
I coefficienti di correlazione di Excel misurano solo relazioni lineari (Pearson) o monotone (Spearman), ma sono possibili altre associazioni. Quindi, indipendentemente dalla correlazione effettuata, è sempre una buona idea rappresentare la relazione tra le variabili in un grafico.
Per tracciare un grafico di correlazione per i dati classificati, ecco cosa bisogna fare:
- Calcolare i gradi utilizzando la funzione RANK.AVG come spiegato in questo esempio.
- Selezionare due colonne con i gradi.
- Inserire un grafico a dispersione XY. A tale scopo, fare clic sul pulsante Spargimento grafico sull'icona Inserto nella scheda Chat gruppo.
- Per aggiungere una linea di tendenza al grafico, il modo più rapido è quello di fare clic sul pulsante Elementi del grafico pulsante> Aggiungi linea di tendenza... .
- Visualizzare il valore R-quadro sul grafico. Fare doppio clic sulla linea di tendenza per aprire il relativo riquadro, passare al riquadro Opzioni della linea di tendenza e selezionare la scheda Visualizzare il valore R-squared sul grafico scatola.
- Mostrare più cifre nel valore R2 per una maggiore precisione.
Il risultato è una rappresentazione visiva della relazione tra i ranghi. Inoltre, si otterrà l'indicazione Coefficiente di determinazione (R2), la cui radice quadrata è il coefficiente di correlazione di Pearson (r). Ma poiché avete tracciato i dati classificati, questo r di Pearson non è altro che il rho di Spearman.
Nota: l'R-quadro è sempre un numero positivo, quindi anche il coefficiente di correlazione di rango di Spearman dedotto sarà sempre positivo. Per aggiungere un segno appropriato, basta osservare la linea nel grafico di correlazione: una pendenza verso l'alto indica una correlazione positiva (segno più) e una pendenza verso il basso indica una correlazione negativa (segno meno).
Nel nostro caso, R2 è pari a 0,5739210285. Utilizzare la funzione SQRT per trovare la radice quadrata:
=SQRT(0,5739210285)
...e si otterrà il già noto coefficiente di 0,757575758.
La pendenza verso il basso del grafico mostra una correlazione negativa, quindi aggiungiamo il segno meno e otteniamo il coefficiente di correlazione di Spearman corretto di -0,757575758.
Ecco come si può calcolare il coefficiente di correlazione di rango di Spearman in Excel. Per dare un'occhiata più da vicino agli esempi discussi in questo tutorial, potete scaricare la nostra cartella di lavoro di esempio qui sotto. Vi ringrazio per la lettura e spero di vedervi sul nostro blog la prossima settimana!
Quaderno pratico
Correlazione di rango di Spearman in Excel (file .xlsx)