Korelacija u Excelu: koeficijent, matrica i graf

  • Podijeli Ovo
Michael Brown

Vodič objašnjava osnove korelacije u Excelu, pokazuje kako izračunati koeficijent korelacije, izgraditi matricu korelacije i interpretirati rezultate.

Jedan od najjednostavnijih statističkih proračuna koje možete napraviti u Excelu je korelacija. Iako jednostavan, vrlo je koristan u razumijevanju odnosa između dvije ili više varijabli. Microsoft Excel pruža sve potrebne alate za pokretanje analize korelacije, samo trebate znati kako ih koristiti.

    Korelacija u Excelu - osnove

    Korelacija je mjera koja opisuje snagu i smjer odnosa između dvije varijable. Obično se koristi u statistici, ekonomiji i društvenim naukama za budžete, poslovne planove i slično.

    Metoda koja se koristi za proučavanje koliko su varijable blisko povezane naziva se analiza korelacije .

    Evo nekoliko primjera jake korelacije:

    • Broj kalorija koje jedete i vaša težina (pozitivna korelacija)
    • Vašnja temperatura i vaši računi za grijanje ( negativna korelacija)

    A ovdje primjeri podataka koji imaju slabu ili nikakvu korelaciju:

    • Ime vaše mačke i njihova omiljena hrana
    • Boja vaše oči i vaša visina

    Suštinska stvar koju treba razumjeti o korelaciji je da ona samo pokazuje koliko su dvije varijable blisko povezane. Korelacija, međutim, ne značiiz specificiranog raspona.

  • ROWS i COLUMNS - vraćaju broj redova i stupaca u rasponu, respektivno. U našoj korelacijskoj formuli, oba se koriste s jednom svrhom - dobiti broj stupaca za pomak od početnog raspona. A to se postiže pametnim korištenjem apsolutnih i relativnih referenci.
  • Da bismo bolje razumjeli logiku, pogledajmo kako formula izračunava koeficijente istaknute na slici iznad.

    Prvo, hajde da ispitajte formulu u B18, koja pronalazi korelaciju između mjesečne temperature (B2:B13) i prodatih grijača (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    U prvoj funkciji OFFSET, ROWS($1: 1) se transformirao u ROWS($1:3) jer je druga koordinata relativna, pa se mijenja na osnovu relativnog položaja reda u koji je formula kopirana (2 reda naniže). Dakle, ROWS() vraća 3, od čega oduzimamo 1 i dobijamo raspon koji je 2 stupca desno od izvornog raspona, tj. $D$2:$D$13 (prodaja grijača).

    The drugi OFFSET ne mijenja specificirani raspon $B$2:$B$13 (temperatura) jer COLUMNS($A:A)-1 vraća nulu.

    Kao rezultat, naša duga formula se pretvara u jednostavnu CORREL( $D$2:$D$13, $B$2:$B$13) i vraća tačno onaj koeficijent koji želimo.

    Formula u C18 koja izračunava koeficijent korelacije za troškove oglašavanja (C2:C13) i prodaju ( D2:D13) radi na sličan način:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Prva funkcija OFFSET jeapsolutno isto kao što je gore opisano, vraćajući raspon od $D$2:$D$13 (prodaja grijača).

    U drugom OFFSET-u, COLUMNS($A:A)-1 se mijenja u COLUMNS($A: B)-1 jer smo kolonu formule 1 kopirali desno. Posljedično, OFFSET dobiva raspon koji je 1 stupac desno od izvornog raspona, tj. $C$2:$C$13 (trošak oglašavanja).

    Kako nacrtati korelacijski graf u Excelu

    Kada radite korelaciju u Excelu, najbolji način da dobijete vizualni prikaz odnosa između vaših podataka je da nacrtate grafikon raspršenosti sa linijom trenda . Evo kako:

    1. Odaberite dvije kolone s numeričkim podacima, uključujući zaglavlja kolona. Redoslijed kolona je važan: varijabla nezavisna bi trebala biti u lijevoj koloni jer ova kolona treba biti iscrtana na x osi; varijabla zavisna bi trebala biti u desnom stupcu jer će biti iscrtana na osi y.
    2. Na kartici Inset , u Chats grupi, kliknite na ikonu Scatter grafikona. Ovo će odmah umetnuti XY raspršeni grafikon u vaš radni list.
    3. Kliknite desnom tipkom na bilo koju tačku podataka na grafikonu i odaberite Dodaj liniju trenda... iz kontekstnog izbornika.

    Za detaljne upute korak po korak pogledajte:

    • Kako kreirati dijagram raspršenosti u Excelu
    • Kako dodati liniju trenda u Excel grafikon

    Za naš skup podataka uzorka, korelacijski grafovi izgledaju kao na slici ispod.Dodatno, prikazali smo vrijednost R-kvadrata, koja se također naziva koeficijent determinacije . Ova vrijednost pokazuje koliko dobro linija trenda odgovara podacima - što je R2 bliže 1, to bolje odgovara.

    Iz vrijednosti R2 prikazane na dijagramu raspršenosti, možete lako izračunati koeficijent korelacije:

    1. Za bolju preciznost, natjerajte Excel da prikaže više cifara u vrijednosti R-kvadrata nego što je to uobičajeno.
    2. Kliknite vrijednost R2 na grafikonu, odaberite je pomoću miša i pritisnite Ctrl + C da ga kopirate.
    3. Dobijte kvadratni korijen od R2 bilo korištenjem funkcije SQRT ili podizanjem kopirane vrijednosti R2 na stepen od 0,5.

    Na primjer, Vrijednost R2 na drugom grafikonu je 0,9174339392. Dakle, možete pronaći koeficijent korelacije za Oglašavanje i Prodani grijači sa jednom od ovih formula:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Kao što se možete uvjeriti, ovako izračunati koeficijenti su savršeno u skladu s koeficijentima korelacije pronađenim u prethodnim primjerima, osim znaka :

    Potencijalni problemi s korelacijom u Excelu

    Korelacija Pearsonovog produkta Momentna korelacija otkriva samo linearni odnos između dvije varijable. Što znači, vaše varijable mogu biti snažno povezane na drugi, krivolinijski, način i još uvijek imaju koeficijent korelacije jednak ili blizu nule.

    Pearsonova korelacija ne možerazlikovati zavisne i nezavisne varijable. Na primjer, kada koristimo CORREL funkciju za pronalaženje veze između prosječne mjesečne temperature i broja prodatih grijača, dobili smo koeficijent od -0,97, što ukazuje na visoku negativnu korelaciju. Međutim, možete mijenjati varijable i dobiti isti rezultat. Dakle, neko može zaključiti da veća prodaja grijača uzrokuje pad temperature, što očito nema smisla. Stoga, kada izvodite analizu korelacije u Excelu, budite svjesni podataka koje dajete.

    Osim toga, Pearsonova korelacija je vrlo osjetljiva na izuzetne vrijednosti . Ako imate jednu ili više tačaka podataka koje se uvelike razlikuju od ostalih podataka, možete dobiti iskrivljenu sliku odnosa između varijabli. U ovom slučaju, bilo bi vam pametno koristiti Spearmanovu rang korelaciju umjesto toga.

    Tako se radi korelacija u Excelu. Da biste bliže pogledali primjere o kojima se govori u ovom vodiču, možete preuzeti naš primjer radne sveske ispod. Zahvaljujem vam na čitanju i nadam se da se vidimo na našem blogu sljedeće sedmice!

    Vježbanje

    Izračunajte korelaciju u Excelu (.xlsx datoteka)

    uzročnost. Činjenica da su promjene u jednoj varijabli povezane s promjenama u drugoj varijabli ne znači da jedna varijabla zapravo uzrokuje promjenu druge.

    Ako ste zainteresirani da naučite o uzročnosti i da napravite predviđanja, napravite korak naprijed i izvršiti analizu linearne regresije.

    Koeficijent korelacije u Excelu - interpretacija korelacije

    Numerička mjera stepena povezanosti između dvije kontinuirane varijable naziva se koeficijent korelacije ( r).

    Vrijednost koeficijenta je uvijek između -1 i 1 i mjeri snagu i smjer linearne veze između varijabli.

    Snaga

    Što je veća apsolutna vrijednost koeficijenta, jača je veza:

    • Ekstremne vrijednosti -1 i 1 ukazuju na savršenu linearnu vezu kada sve tačke podataka padaju na liniju. U praksi, savršena korelacija, bilo pozitivna ili negativna, rijetko se uočava.
    • Koeficijent 0 ukazuje da nema linearnog odnosa između varijabli. Ovo je ono što ćete vjerovatno dobiti s dva seta nasumičnih brojeva.
    • Vrijednosti između 0 i +1/-1 predstavljaju skalu slabih, umjerenih i jakih veza. Kako se r približava ili -1 ili 1, jačina veze se povećava.

    Smjer

    Predznak koeficijenta (plus ili minus) označava smjeruodnos.

    • Pozitivni koeficijenti predstavljaju direktnu korelaciju i proizvode uzlazni nagib na grafu - kako se jedna varijabla povećava, povećava se i druga, i obrnuto.
    • Negativni koeficijenti predstavljaju inverznu korelaciju i stvaraju nagib na grafiku - kako se jedna varijabla povećava, druga varijabla ima tendenciju smanjenja.

    Za bolje razumijevanje, pogledajte sljedeći grafikoni korelacije:

    • Koeficijent 1 znači savršenu pozitivnu vezu - kako se jedna varijabla povećava, druga proporcionalno raste.
    • Koeficijent -1 znači savršen negativan odnos - kako se jedna varijabla povećava, druga se proporcionalno smanjuje.
    • Koeficijent 0 znači da nema veze između dvije varijable - tačke podataka su raštrkane po cijelom grafikonu.

    Pearsonova korelacija

    U statistici mjere nekoliko tipova korelacije ovisno o vrsti podataka s kojima radite. U ovom vodiču ćemo se fokusirati na najčešći.

    Pearsonova korelacija , puni naziv je Pearsonova korelacija momenta proizvoda (PPMC), koristi se za procijeniti linearne odnose između podataka kada je promjena jedne varijable povezana s proporcionalnom promjenom druge varijable. Jednostavno rečeno, Pirsonova korelacija odgovara na pitanje: Mogu li podaci biti predstavljeni na alinija?

    U statistici, to je najpopularniji tip korelacije, a ako imate posla s "koeficijentom korelacije" bez daljnjih kvalifikacija, najvjerovatnije je to Pearson.

    Evo najčešće korištena formula za pronalaženje Pearsonovog koeficijenta korelacije, također nazvana Pearsonov R :

    Povremeno možete naići na dvije druge formule za izračunavanje koeficijenta korelacije uzorka (r) i koeficijent korelacije stanovništva (ρ).

    Kako napraviti Pearsonovu korelaciju u Excelu

    Ručno izračunavanje Pearsonovog koeficijenta korelacije uključuje dosta matematike . Srećom, Microsoft Excel je učinio stvari vrlo jednostavnim. Ovisno o vašem skupu podataka i vašem cilju, slobodno možete koristiti jednu od sljedećih tehnika:

    • Pronađite Pearsonov koeficijent korelacije pomoću funkcije CORREL.
    • Napravite matricu korelacije pomoću izvođenje analize podataka.
    • Pronađite više koeficijenata korelacije s formulom.
    • Nacrtajte graf korelacije da dobijete vizualni prikaz odnosa podataka.

    Kako izračunati koeficijent korelacije u Excel-u

    Da biste ručno izračunali koeficijent korelacije, morali biste koristiti ovu dugačku formulu. Da biste pronašli koeficijent korelacije u Excelu, koristite funkciju CORREL ili PEARSON i dobijete rezultat u djeliću sekunde.

    Excel funkcija CORREL

    Funkcija CORREL vraćaPearsonov koeficijent korelacije za dva skupa vrijednosti. Njegova sintaksa je vrlo laka i jasna:

    CORREL(niz1, niz2)

    Gdje:

    • Niz1 je prvi raspon vrijednosti.
    • Niz2 je drugi raspon vrijednosti.

    Dva niza bi trebala imati jednaku dužinu.

    Pod pretpostavkom da imamo skup nezavisnih varijabli ( x ) u B2:B13 i zavisne varijable (y) u C2:C13, naša formula koeficijenta korelacije glasi kako slijedi:

    =CORREL(B2:B13, C2:C13)

    Ili bismo mogli zamijeniti raspone i dalje dobijete isti rezultat:

    =CORREL(C2:C13, B2:B13)

    U svakom slučaju, formula pokazuje jaku negativnu korelaciju (oko -0,97) između prosječne mjesečne temperature i broja prodatih grijača:

    3 stvari koje biste trebali znati o funkciji CORREL u Excelu

    Da biste uspješno izračunali koeficijent korelacije u Excelu, imajte na umu ove 3 jednostavne činjenice:

    • Ako jedna ili više ćelija u nizu sadrži tekst, logičke vrijednosti ili praznine, takve ćelije se zanemaruju; izračunavaju se ćelije sa nultim vrijednostima.
    • Ako su dostavljeni nizovi različite dužine, vraća se greška #N/A.
    • Ako je bilo koji od nizova prazan ili ako je standardna devijacija od njihove vrijednosti su jednake nuli, a #DIV/0! dolazi do greške.

    Excel funkcija PEARSON

    Funkcija PEARSON u Excelu radi istu stvar - izračunava koeficijent korelacije Pearsonovog trenutka proizvoda.

    PEARSON(array1,niz2)

    Gdje je:

    • Niz1 je raspon nezavisnih vrijednosti.
    • Niz2 je raspon zavisnih vrijednosti.

    Budući da PEARSON i CORREL oba računaju Pearsonov koeficijent linearne korelacije, njihovi rezultati bi se trebali slagati, a to je uglavnom u novijim verzijama Excela 2007 do Excel 2019.

    U Excelu 2003 i ranijim verzijama, međutim, funkcija PEARSON može prikazati neke greške zaokruživanja. Stoga se u starijim verzijama preporučuje korištenje CORREL-a umjesto PEARSON-a.

    Na našem skupu podataka uzorka, obje funkcije pokazuju iste rezultate:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Kako napraviti matricu korelacije u Excelu s analizom podataka

    Kada trebate testirati međusobne odnose između više od dvije varijable, ima smisla konstruirati matricu korelacije, koja se ponekad naziva višestruki koeficijent korelacije .

    matrica korelacije je tabela koja prikazuje koeficijente korelacije između varijabli na presjeku odgovarajućih redaka i stupaca.

    Matrica korelacije u Excelu je izgrađena pomoću alata Korelacija iz dodatka Paket alata za analizu . Ovaj dodatak je dostupan u svim verzijama programa Excel 2003 do Excel 2019, ali nije omogućen prema zadanim postavkama. Ako ga još niste aktivirali, učinite to sada slijedeći korake opisane u Kako omogućiti paket alata za analizu podataka u Excelu.

    SaAlati za analizu podataka dodani na vašu Excel traku, spremni ste za pokretanje analize korelacije:

    1. U gornjem desnom uglu kartice Podaci > Analiza grupi, kliknite na dugme Analiza podataka .
    2. U dijaloškom okviru Analiza podataka odaberite Korelacija i kliknite OK.
    3. U okviru Korelacija , konfigurirajte parametre na ovaj način:
      • Kliknite u okvir Ulazni opseg i odaberite raspon sa vaše izvorne podatke, uključujući zaglavlja kolona (B1:D13 u našem slučaju).
      • U odjeljku Grupirano po provjerite je li odabran radio okvir Kolone (dati da su vaši izvorni podaci grupirani u kolone).
      • Označite okvir za potvrdu Oznake u prvom redu ako odabrani raspon sadrži zaglavlja stupaca.
      • Odaberite željenu izlaznu opciju. Da biste matricu imali na istom listu, odaberite Output Range i navedite referencu na najlijevu ćeliju u koju će se matrica ispisati (A15 u ovom primjeru).

    Kada završite, kliknite na dugme OK :

    Vaša matrica koeficijenata korelacije je gotova i trebala bi izgledati otprilike kao što je prikazano u sljedećem odjeljku.

    Tumačenje rezultata korelacione analize

    U vašoj Excel korelacionoj matrici možete pronaći koeficijente na preseku redova i kolona. Ako su koordinate stupca i reda iste, ispisuje se vrijednost 1.

    U gore navedenomNa primjer, zanima nas korelacija između zavisne varijable (broj prodatih grijača) i dvije nezavisne varijable (prosječna mjesečna temperatura i troškovi reklamiranja). Dakle, gledamo samo brojeve na preseku ovih redova i kolona, ​​koji su istaknuti na snimku ekrana ispod:

    Negativan koeficijent od -0,97 (zaokružen na 2 decimale) pokazuje snažnu inverznu korelaciju između mjesečna temperatura i prodaja grijača - kako temperatura raste, manje grijača se prodaje.

    Pozitivni koeficijent od 0,97 (zaokružen na 2 decimale) ukazuje na jaku direktnu vezu između budžeta za oglašavanje i prodaje - što više novac koji potrošite na oglašavanje, veća je prodaja.

    Kako napraviti analizu višestruke korelacije u Excelu s formulama

    Izgradnja korelacijske tablice pomoću alata za analizu podataka je jednostavna. Međutim, ta matrica je statična, što znači da ćete morati iznova pokrenuti analizu korelacije svaki put kada se izvorni podaci promijene.

    Dobra vijest je da možete lako sami izraditi sličnu korelaciju, a ta matrica će se automatski ažurirati sa svakom promjenom izvornih vrijednosti.

    Da biste to učinili, koristite ovu generičku formulu:

    CORREL(OFFSET( prvi_opseg_varijable , 0, ROWS($1:1)-1) , OFFSET( opseg_prve_varijable , 0, COLUMNS($A:A)-1))

    Važna napomena! Da bi formula radila, trebali biste zaključatiprvi raspon varijable korištenjem apsolutnih referenci na ćelije.

    U našem slučaju, prvi raspon varijable je $B$2:$B$13 (obratite pažnju na znak $ koji zaključava referencu), a naša formula za korelaciju uzima ovo shape:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Sa formulom spremnom, napravimo matricu korelacije:

    1. U prvom redu i prvoj koloni matrice upišite varijable' oznake istim redoslijedom kako se pojavljuju u vašoj izvornoj tabeli (pogledajte snimak ekrana ispod).
    2. Unesite gornju formulu u najlijevu ćeliju (B16 u našem slučaju).
    3. Prevucite formulu dolje i desno da je kopirate u onoliko redaka i stupaca koliko je potrebno (3 reda i 3 stupca u našem primjeru).

    Kao rezultat, dobili smo sljedeću matricu s višestrukom korelacijom koeficijenti. Imajte na umu da su koeficijenti koje vraća naša formula potpuno isti kao i izlaz Excela u prethodnom primjeru (relevantni su istaknuti):

    Kako ova formula funkcionira

    Kao što već znate, Excel CORREL funkcija vraća koeficijent korelacije za dva skupa varijabli koje navedete. Glavni izazov je osigurati odgovarajuće opsege u odgovarajućim ćelijama matrice. Za ovo unosite samo prvi raspon varijable u formulu i koristite sljedeće funkcije da izvršite potrebna podešavanja:

    • OFFSET - vraća raspon koji je zadati broj redaka i stupaca

    Michael Brown je posvećen tehnološki entuzijasta sa strašću za pojednostavljenje složenih procesa pomoću softverskih alata. Sa više od decenije iskustva u tehnološkoj industriji, usavršio je svoje vještine u Microsoft Excelu i Outlooku, kao i Google Sheets i Docs. Michaelov blog je posvećen dijeljenju svog znanja i stručnosti s drugima, pružajući jednostavne savjete i tutorijale za poboljšanje produktivnosti i efikasnosti. Bilo da ste iskusni profesionalac ili početnik, Michaelov blog nudi vrijedne uvide i praktične savjete za izvlačenje maksimuma iz ovih osnovnih softverskih alata.