Corelația în Excel: coeficient, matrice și grafic

  • Imparte Asta
Michael Brown

Tutorialul explică elementele de bază ale corelației în Excel, arată cum se calculează un coeficient de corelație, cum se construiește o matrice de corelație și cum se interpretează rezultatele.

Unul dintre cele mai simple calcule statistice pe care le puteți efectua în Excel este corelația. Deși simplă, este foarte utilă pentru a înțelege relațiile dintre două sau mai multe variabile. Microsoft Excel oferă toate instrumentele necesare pentru a efectua analiza de corelație, trebuie doar să știți cum să le folosiți.

    Corelația în Excel - elementele de bază

    Corelație este o măsură care descrie intensitatea și direcția unei relații între două variabile. Este utilizată în mod obișnuit în statistică, economie și științe sociale pentru bugete, planuri de afaceri și altele asemenea.

    Metoda folosită pentru a studia cât de strâns sunt legate variabilele se numește analiza corelațiilor .

    Iată câteva exemple de corelații puternice:

    • Numărul de calorii pe care le consumați și greutatea dumneavoastră (corelație pozitivă)
    • Temperatura de afară și facturile de încălzire (corelație negativă)

    Și iată exemplele de date care au o corelație slabă sau inexistentă:

    • Numele pisicii tale și mâncarea lor preferată
    • Culoarea ochilor și înălțimea ta

    Un lucru esențial pe care trebuie să-l înțelegem despre corelație este că aceasta arată doar cât de strâns legate sunt două variabile. Corelația, totuși, nu implică cauzalitate. Faptul că modificările unei variabile sunt asociate cu modificări ale celeilalte variabile nu înseamnă că o variabilă determină de fapt modificarea celeilalte.

    Dacă sunteți interesat să aflați cauzalitatea și să faceți predicții, faceți un pas înainte și efectuați o analiză de regresie liniară.

    Coeficientul de corelație în Excel - interpretarea corelației

    Măsura numerică a gradului de asociere dintre două variabile continue se numește coeficientul de corelație (r).

    Valoarea coeficientului este întotdeauna cuprinsă între -1 și 1 și măsoară atât puterea, cât și direcția relației liniare dintre variabile.

    Putere

    Cu cât valoarea absolută a coeficientului este mai mare, cu atât relația este mai puternică:

    • Valorile extreme de -1 și 1 indică o relație liniară perfectă, atunci când toate punctele de date se încadrează pe o linie. În practică, o corelație perfectă, fie ea pozitivă sau negativă, este rareori observată.
    • Un coeficient de 0 indică faptul că nu există o relație liniară între variabile. Acesta este ceea ce este probabil să obțineți cu două seturi de numere aleatoare.
    • Valorile cuprinse între 0 și +1/-1 reprezintă o scară de relații slabe, moderate și puternice. Ca r se apropie de -1 sau de 1, intensitatea relației crește.

    Direcția

    Semnul coeficientului (plus sau minus) indică direcția relației.

    • Pozitiv coeficienții reprezintă o corelație directă și produc o pantă ascendentă pe un grafic - pe măsură ce o variabilă crește, crește și cealaltă, și invers.
    • Negativ coeficienții reprezintă o corelație inversă și produc o pantă descendentă pe un grafic - pe măsură ce o variabilă crește, cealaltă variabilă tinde să scadă.

    Pentru o mai bună înțelegere, vă rugăm să vă uitați la următoarele grafice de corelație:

    • Un coeficient de 1 înseamnă o relație pozitivă perfectă - pe măsură ce o variabilă crește, cealaltă crește proporțional.
    • Un coeficient de -1 înseamnă o relație negativă perfectă - pe măsură ce o variabilă crește, cealaltă scade proporțional.
    • Un coeficient de 0 înseamnă că nu există o relație între două variabile - punctele de date sunt împrăștiate pe tot graficul.

    Corelația Pearson

    În statistică, se măsoară mai multe tipuri de corelație în funcție de tipul de date cu care lucrați. În acest tutorial, ne vom concentra pe cea mai comună.

    Corelația Pearson , numele complet este Corelația momentului produsului Pearson (PPMC), este utilizat pentru a evalua liniar relații între date, atunci când o modificare a unei variabile este asociată cu o modificare proporțională a celeilalte variabile. În termeni simpli, corelația Pearson răspunde la întrebarea: Pot fi datele reprezentate pe o linie?

    În statistică, acesta este cel mai popular tip de corelație și, dacă aveți de-a face cu un "coeficient de corelație" fără alte calificări, cel mai probabil este vorba de Pearson.

    Iată formula cea mai frecvent utilizată pentru a găsi coeficientul de corelație Pearson, numit și coeficientul de corelație Pearson, numit și Pearson's R :

    Uneori, este posibil să întâlniți alte două formule de calcul al coeficientul de corelație al eșantionului (r) și coeficientul de corelație a populației (ρ).

    Cum se face corelația Pearson în Excel

    Calcularea manuală a coeficientului de corelație Pearson implică destul de multă matematică. Din fericire, Microsoft Excel a simplificat foarte mult lucrurile. În funcție de setul de date și de obiectivul dumneavoastră, sunteți liber să utilizați una dintre următoarele tehnici:

    • Găsiți coeficientul de corelație Pearson cu ajutorul funcției CORREL.
    • Realizați o matrice de corelație prin efectuarea analizei datelor.
    • Găsiți coeficienții de corelație multiplă cu ajutorul unei formule.
    • Trasați un grafic de corelație pentru a obține o reprezentare vizuală a relației dintre date.

    Cum se calculează coeficientul de corelație în Excel

    Pentru a calcula manual un coeficient de corelație, ar trebui să utilizați această formulă lungă. Pentru a găsi coeficientul de corelație în Excel, utilizați funcția CORREL sau PEARSON și obțineți rezultatul într-o fracțiune de secundă.

    Funcția Excel CORREL

    Funcția CORREL returnează coeficientul de corelație Pearson pentru două seturi de valori. Sintaxa sa este foarte simplă și directă:

    CORREL(array1, array2)

    Unde:

    • Array1 este primul interval de valori.
    • Array2 este al doilea interval de valori.

    Cele două matrici trebuie să aibă o lungime egală.

    Presupunând că avem un set de variabile independente ( x ) în B2:B13 și variabilele dependente (y) în C2:C13, formula coeficientului nostru de corelație este următoarea:

    =CORREL(B2:B13, C2:C13)

    Sau, am putea schimba intervalele și am putea obține același rezultat:

    =CORREL(C2:C13, B2:B13)

    Oricum ar fi, formula arată o corelație negativă puternică (aproximativ -0,97) între temperatura medie lunară și numărul de aparate de încălzire vândute:

    3 lucruri pe care trebuie să le știți despre funcția CORREL din Excel

    Pentru a calcula cu succes coeficientul de corelație în Excel, vă rugăm să țineți cont de aceste 3 fapte simple:

    • În cazul în care una sau mai multe celule dintr-o matrice conțin text, valori logice sau spații libere, aceste celule sunt ignorate; celulele cu valori zero sunt calculate.
    • În cazul în care array-urile furnizate sunt de lungimi diferite, se trimite o eroare #N/A.
    • În cazul în care oricare dintre aceste tablouri este gol sau dacă abaterea standard a valorilor lor este egală cu zero, se produce o eroare #DIV/0!

    Funcția Excel PEARSON

    Funcția PEARSON din Excel face același lucru - calculează coeficientul de corelație Pearson Product Moment.

    PEARSON(array1, array2)

    Unde:

    • Array1 este un interval de valori independente.
    • Array2 este un interval de valori dependente.

    Deoarece atât PEARSON, cât și CORREL calculează coeficientul de corelație liniară Pearson, rezultatele lor ar trebui să fie în concordanță și, în general, sunt în concordanță în versiunile recente ale Excel 2007 până la Excel 2019.

    Cu toate acestea, în Excel 2003 și în versiunile anterioare, funcția PEARSON poate afișa unele erori de rotunjire. Prin urmare, în versiunile mai vechi, se recomandă utilizarea funcției CORREL în locul funcției PEARSON.

    Pe setul nostru de date de probă, ambele funcții prezintă aceleași rezultate:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Cum se face o matrice de corelație în Excel cu Analiza datelor

    Atunci când trebuie să testați interrelațiile dintre mai mult de două variabile, este logic să construiți o matrice de corelație, care se numește uneori coeficient de corelație multiplă .

    The matrice de corelație este un tabel care prezintă coeficienții de corelație dintre variabilele aflate la intersecția rândurilor și coloanelor corespunzătoare.

    Matricea de corelație în Excel se construiește folosind Corelație instrument din ToolPak de analiză Acest add-in este disponibil în toate versiunile de la Excel 2003 până la Excel 2019, dar nu este activat în mod implicit. Dacă nu l-ați activat încă, vă rugăm să faceți acest lucru acum, urmând pașii descriși în Cum să activați Data Analysis ToolPak în Excel.

    Cu instrumentele de analiză a datelor adăugate la panglica Excel, sunteți pregătit să efectuați analize de corelație:

    1. În colțul din dreapta sus al paginii Date tab> Analiză grup, faceți clic pe butonul Analiza datelor buton.
    2. În Analiza datelor caseta de dialog, selectați Corelație și faceți clic pe OK.
    3. În Corelație configurați parametrii în acest mod:
      • Faceți clic în fereastra Gama de intrare și selectați intervalul cu datele sursă, inclusiv anteturile de coloană (B1:D13 în cazul nostru).
      • În Grupate după asigurați-vă că Coloane este selectată caseta de selectare (având în vedere că datele sursă sunt grupate în coloane).
      • Selectați Etichete în primul rând caseta de selectare dacă intervalul selectat conține anteturi de coloană.
      • Alegeți opțiunea de ieșire dorită. Pentru a avea matricea în aceeași foaie, selectați Gama de ieșire și specificați referința la cea mai din stânga celulă în care urmează să fie emisă matricea (A15 în acest exemplu).

    Când ați terminat, faceți clic pe butonul OK buton:

    Matricea coeficienților de corelație este gata și ar trebui să arate ca în secțiunea următoare.

    Interpretarea rezultatelor analizei de corelație

    În matricea de corelație din Excel, puteți găsi coeficienții la intersecția rândurilor și coloanelor. Dacă coordonatele coloanelor și rândurilor sunt identice, se obține valoarea 1.

    În exemplul de mai sus, ne interesează să cunoaștem corelația dintre variabila dependentă (numărul de încălzitoare vândute) și două variabile independente (temperatura medie lunară și costurile de publicitate). Astfel, ne uităm doar la numerele de la intersecția acestor rânduri și coloane, care sunt evidențiate în captura de ecran de mai jos:

    Coeficientul negativ de -0,97 (rotunjit la două zecimale) arată o corelație inversă puternică între temperatura lunară și vânzările de încălzitoare - pe măsură ce temperatura crește, se vând mai puține încălzitoare.

    Coeficientul pozitiv de 0,97 (rotunjit la două zecimale) indică o legătură directă puternică între bugetul de publicitate și vânzări - cu cât cheltuiți mai mulți bani pe publicitate, cu atât cresc vânzările.

    Cum se face analiza corelațiilor multiple în Excel cu formule

    Construirea tabelului de corelație cu instrumentul Data Analysis este ușoară. Cu toate acestea, matricea respectivă este statică, ceea ce înseamnă că va trebui să executați din nou analiza de corelație de fiecare dată când datele sursă se modifică.

    Vestea bună este că puteți construi cu ușurință un tabel de corelație similar, iar matricea se va actualiza automat la fiecare modificare a valorilor sursă.

    Pentru a o face, folosiți această formulă generică:

    CORREL(OFFSET( intervalul_prima_variabilă , 0, ROWS($1:1)-1), OFFSET( intervalul_prima_variabilă , 0, COLUMNS($A:A)-1))

    Notă importantă! Pentru ca formula să funcționeze, trebuie să blocați primul interval de variabile utilizând referințe absolute de celule.

    În cazul nostru, intervalul primei variabile este $B$2:$B$13 (vă rugăm să observați semnul $ care blochează referința), iar formula noastră de corelație are această formă:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Cu formula gata, să construim o matrice de corelație:

    1. În primul rând și prima coloană a matricei, introduceți etichetele variabilelor în aceeași ordine în care apar în tabelul sursă (a se vedea imaginea de mai jos).
    2. Introduceți formula de mai sus în celula cea mai din stânga (B16 în cazul nostru).
    3. Trageți formula în jos și la dreapta pentru a o copia pe câte rânduri și coloane sunt necesare (3 rânduri și 3 coloane în exemplul nostru).

    Ca rezultat, avem următoarea matrice cu coeficienți de corelație multipli. Observați că coeficienții returnați de formula noastră sunt exact aceiași cu cei ieșiți de Excel în exemplul anterior (cei relevanți sunt evidențiați):

    Cum funcționează această formulă

    După cum știți deja, funcția Excel CORREL returnează coeficientul de corelație pentru două seturi de variabile pe care le specificați. Principala provocare este de a furniza intervalele corespunzătoare în celulele corespunzătoare ale matricei. Pentru aceasta, introduceți doar primul interval de variabile în formulă și utilizați următoarele funcții pentru a face ajustările necesare:

    • OFFSET - returnează un interval care se află la un anumit număr de rânduri și coloane de la un interval specificat.
    • ROWS și COLUMNS - returnează numărul de rânduri și, respectiv, de coloane dintr-un interval. În formula noastră de corelație, ambele sunt utilizate cu un singur scop - să obținem numărul de coloane care trebuie decalate față de intervalul de pornire. Și acest lucru se realizează prin utilizarea inteligentă a referințelor absolute și relative.

    Pentru a înțelege mai bine logica, să vedem cum calculează formula coeficienții evidențiați în captura de ecran de mai sus.

    În primul rând, să examinăm formula din B18, care găsește corelația dintre temperatura lunară (B2:B13) și caloriferele vândute (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    În prima funcție OFFSET, ROWS($1:1) s-a transformat în ROWS($1:3) deoarece a doua coordonată este relativă, deci se schimbă în funcție de poziția relativă a rândului în care este copiată formula (2 rânduri mai jos). Astfel, ROWS() returnează 3, din care scădem 1 și obținem un interval care se află la 2 coloane în dreapta intervalului sursă, adică $D$2:$D$13 (vânzări de încălzire).

    Al doilea OFFSET nu modifică intervalul specificat $B$2:$B$13 (temperatură) deoarece COLUMNS($A:A)-1 returnează zero.

    Ca rezultat, formula noastră lungă se transformă într-o simplă CORREL($D$2:$D$13, $B$2:$B$13) și returnează exact coeficientul pe care îl dorim.

    Formula din C18 care calculează un coeficient de corelație pentru costul publicității (C2:C13) și vânzările (D2:D13) funcționează într-un mod similar:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Prima funcție OFFSET este absolut identică cu cea descrisă mai sus, returnând intervalul $D$2:$D$13 (vânzări de încălzire).

    În al doilea OFFSET, COLUMNS($A:A)-1 se schimbă în COLUMNS($A:B)-1 deoarece am copiat formula cu o coloană la dreapta. În consecință, OFFSET obține un interval care se află la o coloană la dreapta intervalului sursă, adică $C$2:$C$13 (costul publicității).

    Cum se trasează un grafic de corelație în Excel

    Atunci când efectuați o corelație în Excel, cel mai bun mod de a obține o reprezentare vizuală a relațiilor dintre datele dvs. este de a desena o diagramă diagrama de dispersie cu un linia de trend Iată cum:

    1. Selectați două coloane cu date numerice, inclusiv antetele coloanelor. Ordinea coloanelor este importantă: coloana independent ar trebui să fie în coloana din stânga, deoarece această coloană va fi reprezentată pe axa x; variabila dependent trebuie să fie în coloana din dreapta, deoarece va fi reprezentată pe axa y.
    2. Pe Inserție în fila Discuții grup, faceți clic pe butonul Dispersie Acest lucru va insera imediat o diagramă de dispersie XY în foaia de calcul.
    3. Faceți clic dreapta pe orice punct de date din grafic și alegeți Adăugați Trendline... din meniul contextual.

    Pentru instrucțiuni detaliate pas cu pas, vă rugăm să consultați:

    • Cum se creează un grafic de dispersie în Excel
    • Cum să adăugați linia de trend la graficul Excel

    Pentru setul nostru de date de probă, graficele de corelație arată ca în imaginea de mai jos. În plus, am afișat valoarea R pătrat, denumită și valoarea Coeficientul de determinare Această valoare indică cât de bine corespunde linia de tendință cu datele - cu cât R2 este mai aproape de 1, cu atât mai bine se potrivește.

    Din valoarea R2 afișată pe diagrama de dispersie, puteți calcula cu ușurință coeficientul de corelație:

    1. Pentru o mai bună acuratețe, faceți ca Excel să afișeze mai multe cifre în valoarea R pătrat decât o face în mod implicit.
    2. Faceți clic pe valoarea R2 de pe grafic, selectați-o cu ajutorul mouse-ului și apăsați Ctrl + C pentru a o copia.
    3. Obțineți o rădăcină pătrată a lui R2 fie prin utilizarea funcției SQRT, fie prin ridicarea valorii R2 copiate la puterea 0,5.

    De exemplu, valoarea R2 din cel de-al doilea grafic este 0,9174339392. Astfel, puteți afla coeficientul de corelație pentru Publicitate și Încălzitoare vândute cu una dintre aceste formule:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    După cum vă puteți asigura, coeficienții calculați în acest mod sunt perfect în concordanță cu coeficienții de corelație găsiți în exemplele anterioare, cu excepția semnului :

    Probleme potențiale cu corelația în Excel

    The Corelația momentului produsului Pearson dezvăluie doar un liniar Înseamnă că variabilele dvs. pot fi strâns legate într-un alt mod, curbiliniu, și totuși coeficientul de corelație să fie egal sau aproape de zero.

    Corelația Pearson nu este capabilă să distingă dependent și independent variabile. De exemplu, atunci când am folosit funcția CORREL pentru a găsi asocierea dintre o temperatură medie lunară și numărul de încălzitoare vândute, am obținut un coeficient de -0,97, ceea ce indică o corelație negativă ridicată. Cu toate acestea, ați putea schimba variabilele și obține același rezultat. Astfel, cineva ar putea concluziona că vânzările mai mari de încălzitoare determină scăderea temperaturii, ceea ce, evident, nu are nici oPrin urmare, atunci când executați o analiză de corelație în Excel, trebuie să fiți atenți la datele pe care le furnizați.

    În plus, corelația Pearson este foarte sensibilă la valori aberante Dacă aveți unul sau mai multe puncte de date care diferă foarte mult de restul datelor, este posibil să obțineți o imagine distorsionată a relației dintre variabile. În acest caz, ar fi înțelept să folosiți în schimb corelația de rang Spearman.

    Iată cum se face corelația în Excel. Pentru a vedea mai îndeaproape exemplele discutate în acest tutorial, vă invităm să descărcați exemplul nostru de registru de lucru de mai jos. Vă mulțumesc pentru lectură și sper să ne vedem pe blogul nostru săptămâna viitoare!

    Caiet de practică

    Calculați corelația în Excel (fișier .xlsx)

    Michael Brown este un pasionat de tehnologie dedicat, cu o pasiune pentru simplificarea proceselor complexe folosind instrumente software. Cu mai mult de un deceniu de experiență în industria tehnologiei, el și-a perfecționat abilitățile în Microsoft Excel și Outlook, precum și în Google Sheets și Docs. Blogul lui Michael este dedicat împărtășirii cunoștințelor și experienței sale cu alții, oferind sfaturi și tutoriale ușor de urmat pentru îmbunătățirea productivității și eficienței. Indiferent dacă sunteți un profesionist experimentat sau un începător, blogul lui Michael oferă informații valoroase și sfaturi practice pentru a profita la maximum de aceste instrumente software esențiale.