Sommario
L'esercitazione spiega le basi della correlazione in Excel, mostra come calcolare un coefficiente di correlazione, costruire una matrice di correlazione e interpretare i risultati.
Uno dei calcoli statistici più semplici che si possono eseguire in Excel è la correlazione. Sebbene sia semplice, è molto utile per comprendere le relazioni tra due o più variabili. Microsoft Excel fornisce tutti gli strumenti necessari per eseguire l'analisi di correlazione, basta sapere come usarli.
Correlazione in Excel: le basi
Correlazione È una misura che descrive la forza e la direzione di una relazione tra due variabili, comunemente utilizzata in statistica, economia e scienze sociali per bilanci, piani aziendali e simili.
Il metodo utilizzato per studiare quanto le variabili siano strettamente correlate si chiama analisi di correlazione .
Ecco un paio di esempi di forte correlazione:
- Il numero di calorie ingerite e il peso (correlazione positiva)
- La temperatura esterna e le bollette del riscaldamento (correlazione negativa)
Ed ecco gli esempi di dati che hanno una correlazione debole o nulla:
- Il nome del gatto e il suo cibo preferito
- Il colore degli occhi e la statura
Una cosa essenziale da capire riguardo alla correlazione è che essa mostra solo quanto siano strettamente correlate due variabili. La correlazione, tuttavia, non implica il rapporto di causalità: il fatto che le variazioni di una variabile siano associate alle variazioni dell'altra variabile non significa che una variabile causi effettivamente la variazione dell'altra.
Se siete interessati a conoscere la causalità e a fare previsioni, fate un passo avanti ed eseguite l'analisi di regressione lineare.
Coefficiente di correlazione in Excel - interpretazione della correlazione
La misura numerica del grado di associazione tra due variabili continue è denominata "indice di associazione". coefficiente di correlazione (r).
Il valore del coefficiente è sempre compreso tra -1 e 1 e misura sia la forza che la direzione della relazione lineare tra le variabili.
La forza
Più grande è il valore assoluto del coefficiente, più forte è la relazione:
- I valori estremi di -1 e 1 indicano una relazione lineare perfetta quando tutti i punti dei dati cadono su una linea. In pratica, una correlazione perfetta, sia positiva che negativa, si osserva raramente.
- Un coefficiente pari a 0 indica che non esiste una relazione lineare tra le variabili, come è probabile che accada con due serie di numeri casuali.
- I valori compresi tra 0 e +1/-1 rappresentano una scala di relazioni deboli, moderate e forti. Come r si avvicina a -1 o a 1, la forza della relazione aumenta.
Direzione
Il segno del coefficiente (più o meno) indica la direzione della relazione.
- Positivo I coefficienti rappresentano una correlazione diretta e producono una pendenza verso l'alto su un grafico: all'aumentare di una variabile aumenta anche l'altra e viceversa.
- Negativo I coefficienti rappresentano una correlazione inversa e producono una pendenza verso il basso su un grafico: all'aumentare di una variabile, l'altra tende a diminuire.
Per una migliore comprensione, si vedano i seguenti grafici di correlazione:
- Un coefficiente di 1 significa una relazione positiva perfetta: all'aumentare di una variabile, aumenta proporzionalmente anche l'altra.
- Un coefficiente di -1 significa una relazione negativa perfetta: all'aumentare di una variabile, l'altra diminuisce proporzionalmente.
- Un coefficiente di 0 significa che non c'è alcuna relazione tra due variabili - i punti dei dati sono sparsi per tutto il grafico.
Correlazione di Pearson
In statistica si misurano diversi tipi di correlazione a seconda del tipo di dati con cui si lavora. In questa esercitazione ci concentreremo su quella più comune.
Correlazione di Pearson , il nome completo è il Correlazione prodotto-momento di Pearson (PPMC), viene utilizzato per valutare lineare relazioni tra i dati quando una variazione di una variabile è associata a una variazione proporzionale dell'altra variabile. In termini semplici, la correlazione di Pearson risponde alla domanda: i dati possono essere rappresentati su una retta?
In statistica, è il tipo di correlazione più diffuso e se si ha a che fare con un "coefficiente di correlazione" senza ulteriori qualificazioni, è molto probabile che si tratti del Pearson.
Ecco la formula più comunemente utilizzata per trovare il coefficiente di correlazione di Pearson, chiamato anche R di Pearson :
A volte è possibile imbattersi in altre due formule per calcolare il valore di coefficiente di correlazione del campione (r) e il coefficiente di correlazione della popolazione (ρ).
Come eseguire la correlazione di Pearson in Excel
Calcolare il coefficiente di correlazione di Pearson a mano comporta un bel po' di matematica. Fortunatamente, Microsoft Excel ha reso le cose molto semplici. A seconda dell'insieme di dati e dell'obiettivo, è possibile utilizzare una delle seguenti tecniche:
- Trovare il coefficiente di correlazione di Pearson con la funzione CORREL.
- Creare una matrice di correlazione eseguendo l'Analisi dei dati.
- Trovare i coefficienti di correlazione multipla con una formula.
- Tracciare un grafico di correlazione per ottenere una rappresentazione visiva della relazione tra i dati.
Come calcolare il coefficiente di correlazione in Excel
Per calcolare un coefficiente di correlazione a mano, è necessario utilizzare questa lunga formula. Per trovare il coefficiente di correlazione in Excel, si può utilizzare la funzione CORREL o PEARSON e ottenere il risultato in una frazione di secondo.
Funzione CORREL di Excel
La funzione CORREL restituisce il coefficiente di correlazione di Pearson per due serie di valori. La sua sintassi è molto semplice e diretta:
CORREL(array1, array2)Dove:
- Array1 è il primo intervallo di valori.
- Array2 è il secondo intervallo di valori.
Le due matrici devono avere la stessa lunghezza.
Supponendo di avere un insieme di variabili indipendenti ( x ) in B2:B13 e le variabili dipendenti (y) in C2:C13, la formula del coefficiente di correlazione è la seguente:
=CORREL(B2:B13, C2:C13)
Oppure, possiamo scambiare gli intervalli e ottenere lo stesso risultato:
=CORREL(C2:C13, B2:B13)
In ogni caso, la formula mostra una forte correlazione negativa (circa -0,97) tra la temperatura media mensile e il numero di riscaldatori venduti:
3 cose da sapere sulla funzione CORREL in Excel
Per calcolare con successo il coefficiente di correlazione in Excel, tenete a mente questi 3 semplici fatti:
- Se una o più celle di una matrice contengono testo, valori logici o spazi vuoti, tali celle vengono ignorate; le celle con valori nulli vengono calcolate.
- Se le matrici fornite sono di lunghezza diversa, viene restituito un errore #N/A.
- Se uno degli array è vuoto o se la deviazione standard dei loro valori è uguale a zero, si verifica un errore #DIV/0!
Funzione PEARSON di Excel
La funzione PEARSON di Excel fa la stessa cosa: calcola il coefficiente di correlazione Pearson Product Moment.
PEARSON(array1, array2)Dove:
- Array1 è un intervallo di valori indipendenti.
- Array2 è un intervallo di valori dipendenti.
Poiché PEARSON e CORREL calcolano entrambi il coefficiente di correlazione lineare di Pearson, i loro risultati dovrebbero concordare, e in genere lo fanno nelle versioni recenti di Excel 2007 fino a Excel 2019.
In Excel 2003 e versioni precedenti, tuttavia, la funzione PEARSON può presentare alcuni errori di arrotondamento. Pertanto, nelle versioni precedenti, si consiglia di utilizzare CORREL piuttosto che PEARSON.
Sul nostro campione di dati, entrambe le funzioni mostrano gli stessi risultati:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Come creare una matrice di correlazione in Excel con Analisi dei dati
Quando è necessario testare le interrelazioni tra più di due variabili, ha senso costruire una matrice di correlazione, che a volte viene chiamata coefficiente di correlazione multipla .
Il matrice di correlazione è una tabella che mostra i coefficienti di correlazione tra le variabili all'intersezione delle righe e delle colonne corrispondenti.
La matrice di correlazione in Excel viene costruita utilizzando la funzione Correlazione dallo strumento ToolPak di analisi Questo componente aggiuntivo è disponibile in tutte le versioni di Excel dalla 2003 alla 2019, ma non è abilitato per impostazione predefinita. Se non lo avete ancora attivato, fatelo ora seguendo la procedura descritta in Come abilitare il Data Analysis ToolPak in Excel.
Con gli strumenti di analisi dei dati aggiunti alla barra multifunzione di Excel, si è pronti a eseguire l'analisi delle correlazioni:
- Nell'angolo in alto a destra della schermata Dati scheda> Analisi fare clic sul gruppo Analisi dei dati pulsante.
- Nel Analisi dei dati selezionare la finestra di dialogo Correlazione e fare clic su OK.
- Nel Correlazione configurare i parametri in questo modo:
- Fare clic nel campo Intervallo di ingresso e selezionare l'intervallo con i dati di origine, comprese le intestazioni delle colonne (B1:D13 nel nostro caso).
- Nel Raggruppati per assicurarsi che la sezione Colonne è selezionata (dato che i dati di origine sono raggruppati in colonne).
- Selezionare la voce Etichette nella prima riga se l'intervallo selezionato contiene intestazioni di colonna.
- Scegliere l'opzione di output desiderata. Per avere la matrice nello stesso foglio, selezionare Gamma di uscita e specificare il riferimento alla cella più a sinistra in cui deve essere emessa la matrice (A15 in questo esempio).
Al termine, fare clic sul pulsante OK pulsante:
La matrice dei coefficienti di correlazione è pronta e dovrebbe avere un aspetto simile a quello mostrato nella sezione successiva.
Interpretare i risultati dell'analisi di correlazione
Nella matrice di correlazione di Excel, è possibile trovare i coefficienti all'intersezione delle righe e delle colonne. Se le coordinate delle colonne e delle righe sono uguali, viene emesso il valore 1.
Nell'esempio precedente, siamo interessati a conoscere la correlazione tra la variabile dipendente (il numero di stufe vendute) e due variabili indipendenti (la temperatura media mensile e i costi di pubblicità). Pertanto, osserviamo solo i numeri all'intersezione di queste righe e colonne, che sono evidenziati nella schermata sottostante:
Il coefficiente negativo di -0,97 (arrotondato a 2 cifre decimali) mostra una forte correlazione inversa tra la temperatura mensile e le vendite di riscaldatori: quando la temperatura aumenta, vengono venduti meno riscaldatori.
Il coefficiente positivo di 0,97 (arrotondato al secondo decimale) indica una forte connessione diretta tra il budget pubblicitario e le vendite: più si spende in pubblicità, più aumentano le vendite.
Come eseguire l'analisi delle correlazioni multiple in Excel con le formule
Costruire la tabella di correlazione con lo strumento Analisi dati è facile, ma la matrice è statica, quindi è necessario eseguire nuovamente l'analisi di correlazione ogni volta che i dati di origine cambiano.
La buona notizia è che si può facilmente costruire da soli una tabella di correlazione simile, che si aggiorna automaticamente a ogni modifica dei valori di partenza.
Per farlo, utilizzare questa formula generica:
CORREL(OFFSET( primo_range_variabile , 0, RIGHE($1:1)-1), OFFSET( primo_range_variabile , 0, COLONNE($A:A)-1))Nota importante: affinché la formula funzioni, è necessario bloccare il primo intervallo di variabili utilizzando riferimenti assoluti alle celle.
Nel nostro caso, il primo intervallo di variabili è $B$2:$B$13 (si noti il segno $ che blocca il riferimento), e la nostra formula di correlazione assume questa forma:
=CORREL(OFFSET($B$2:$B$13, 0, RIGHE($1:1)-1), OFFSET($B$2:$B$13, 0, COLONNE($A:A)-1))
Con la formula pronta, costruiamo una matrice di correlazione:
- Nella prima riga e nella prima colonna della matrice, digitare le etichette delle variabili nello stesso ordine in cui appaiono nella tabella di partenza (vedere la schermata sottostante).
- Inserite la formula precedente nella cella più a sinistra (B16 nel nostro caso).
- Trascinare la formula verso il basso e verso destra per copiarla su tutte le righe e colonne necessarie (3 righe e 3 colonne nel nostro esempio).
Il risultato è la seguente matrice con coefficienti di correlazione multipli. Si noti che i coefficienti restituiti dalla nostra formula sono esattamente gli stessi che Excel ha prodotto nell'esempio precedente (quelli rilevanti sono evidenziati):
Come funziona questa formula
Come già sapete, la funzione CORREL di Excel restituisce il coefficiente di correlazione per due serie di variabili specificate dall'utente. La sfida principale consiste nel fornire gli intervalli appropriati nelle celle corrispondenti della matrice. A tale scopo, si inserisce solo il primo intervallo di variabili nella formula e si utilizzano le funzioni seguenti per apportare le modifiche necessarie:
- OFFSET - restituisce un intervallo che si trova a un determinato numero di righe e colonne da un intervallo specificato.
- ROWS e COLUMNS - restituiscono rispettivamente il numero di righe e di colonne di un intervallo. Nella nostra formula di correlazione, entrambi vengono utilizzati con un unico scopo: ottenere il numero di colonne da scostare dall'intervallo di partenza. Questo si ottiene utilizzando abilmente riferimenti assoluti e relativi.
Per capire meglio la logica, vediamo come la formula calcola i coefficienti evidenziati nella schermata precedente.
In primo luogo, esaminiamo la formula in B18, che trova una correlazione tra la temperatura mensile (B2:B13) e i riscaldatori venduti (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, RIGHE($1:3)-1), OFFSET($B$2:$B$13, 0, COLONNE($A:A)-1))
Nella prima funzione OFFSET, ROWS($1:1) si è trasformato in ROWS($1:3) perché la seconda coordinata è relativa, quindi cambia in base alla posizione relativa della riga in cui viene copiata la formula (2 righe più in basso). Pertanto, ROWS() restituisce 3, da cui sottraiamo 1 e otteniamo un intervallo che si trova 2 colonne a destra dell'intervallo di origine, cioè $D$2:$D$13 (vendite di riscaldamento).
Il secondo OFFSET non modifica l'intervallo specificato $B$2:$B$13 (temperatura) perché COLUMNS($A:A)-1 restituisce zero.
Di conseguenza, la nostra lunga formula si trasforma in una semplice CORREL($D$2:$D$13, $B$2:$B$13) e restituisce esattamente il coefficiente desiderato.
La formula in C18 che calcola il coefficiente di correlazione tra il costo della pubblicità (C2:C13) e le vendite (D2:D13) funziona in modo simile:
=CORREL(OFFSET($B$2:$B$13, 0, RIGHE($1:3)-1), OFFSET($B$2:$B$13, 0, COLONNE($A:B)-1))
La prima funzione OFFSET è assolutamente identica a quella descritta in precedenza e restituisce l'intervallo $D$2:$D$13 (vendite con riscaldamento).
Nel secondo OFFSET, COLONNE($A:A)-1 cambia in COLONNE($A:B)-1 perché abbiamo copiato la formula una colonna a destra. Di conseguenza, OFFSET ottiene un intervallo che si trova una colonna a destra dell'intervallo di origine, cioè $C$2:$C$13 (costo della pubblicità).
Come tracciare un grafico di correlazione in Excel
Quando si esegue una correlazione in Excel, il modo migliore per ottenere una rappresentazione visiva delle relazioni tra i dati è quello di disegnare un grafico a dispersione con un linea di tendenza Ecco come:
- Selezionate due colonne con dati numerici, comprese le intestazioni delle colonne. L'ordine delle colonne è importante: la colonna indipendente deve essere nella colonna di sinistra, poiché questa colonna deve essere tracciata sull'asse x; la variabile dipendente deve trovarsi nella colonna di destra, poiché verrà tracciata sull'asse delle ordinate.
- Sul Inserto nella scheda Chat fare clic sul gruppo Spargimento Per inserire immediatamente un grafico a dispersione XY nel foglio di lavoro.
- Fare clic con il tasto destro del mouse su qualsiasi punto del grafico e scegliere Aggiungi linea di tendenza... dal menu contestuale.
Per le istruzioni dettagliate passo-passo, vedere:
- Come creare un grafico a dispersione in Excel
- Come aggiungere una linea di tendenza al grafico di Excel
Per il nostro set di dati di esempio, i grafici delle correlazioni appaiono come nell'immagine seguente. Inoltre, abbiamo visualizzato il valore R-quadrato, chiamato anche valore di Coefficiente di determinazione Questo valore indica la corrispondenza della linea di tendenza con i dati: più R2 è vicino a 1, migliore è la corrispondenza.
Dal valore R2 visualizzato sul diagramma di dispersione, è possibile calcolare facilmente il coefficiente di correlazione:
- Per una maggiore precisione, fate in modo che Excel mostri un numero maggiore di cifre nel valore R-quadro rispetto a quello predefinito.
- Fare clic sul valore R2 nel grafico, selezionarlo con il mouse e premere Ctrl + C per copiarlo.
- Ottenere la radice quadrata di R2 utilizzando la funzione SQRT o elevando il valore R2 copiato alla potenza di 0,5.
Ad esempio, il valore di R2 nel secondo grafico è 0,9174339392. Quindi, è possibile trovare il coefficiente di correlazione per Pubblicità e Riscaldatori venduti con una di queste formule:
=SQRT(0,9174339392)
=0.9174339392^0.5
Come si può notare, i coefficienti così calcolati sono perfettamente in linea con i coefficienti di correlazione trovati negli esempi precedenti, tranne il segno :
Potenziali problemi di correlazione in Excel
Il Correlazione prodotto-momento di Pearson rivela solo un lineare In altre parole, le variabili possono essere fortemente correlate in un altro modo, curvilineo, e avere comunque un coefficiente di correlazione uguale o vicino a zero.
La correlazione di Pearson non è in grado di distinguere dipendente e indipendente Ad esempio, utilizzando la funzione CORREL per trovare l'associazione tra la temperatura media mensile e il numero di stufe vendute, abbiamo ottenuto un coefficiente di -0,97, che indica un'elevata correlazione negativa. Tuttavia, si potrebbero cambiare le variabili e ottenere lo stesso risultato. Quindi, qualcuno potrebbe concludere che l'aumento delle vendite di stufe provoca una diminuzione della temperatura, il che ovviamente non ha alcun senso.Pertanto, quando si esegue un'analisi di correlazione in Excel, è necessario prestare attenzione ai dati forniti.
Inoltre, la correlazione di Pearson è molto sensibile a valori anomali Se si dispone di uno o più punti di dati che differiscono notevolmente dal resto dei dati, si può ottenere un'immagine distorta della relazione tra le variabili. In questo caso, sarebbe opportuno utilizzare la correlazione di rango di Spearman.
Ecco come fare correlazioni in Excel. Per dare un'occhiata più da vicino agli esempi discussi in questo tutorial, potete scaricare la nostra cartella di lavoro di esempio qui sotto. Vi ringrazio per la lettura e spero di vedervi sul nostro blog la prossima settimana!
Quaderno pratico
Calcolo della correlazione in Excel (file .xlsx)