Sadržaj
Udžbenik objašnjava osnove korelacije u Excelu, pokazuje kako izračunati koeficijent korelacije, izraditi korelacijsku matricu i interpretirati rezultate.
Jedan od najjednostavnijih statističkih izračuna koje možete napraviti u Excelu je korelacija. Iako je jednostavan, vrlo je koristan za razumijevanje odnosa između dvije ili više varijabli. Microsoft Excel pruža sve potrebne alate za izvođenje korelacijske analize, samo ih trebate znati koristiti.
Korelacija u Excelu - osnove
Korelacija je mjera koja opisuje snagu i smjer odnosa između dviju varijabli. Obično se koristi u statistici, ekonomiji i društvenim znanostima za proračune, poslovne planove i slično.
Metoda koja se koristi za proučavanje koliko su blisko povezane varijable naziva se korelacijska analiza .
Evo nekoliko primjera jake korelacije:
- Broj kalorija koje unosite i vaša težina (pozitivna korelacija)
- Vanjska temperatura i vaši računi za grijanje ( negativna korelacija)
A ovdje su primjeri podataka koji imaju slabu ili nikakvu korelaciju:
- Ime vaše mačke i njihova omiljena hrana
- Boja vaše oči i vaša visina
Bitna stvar koju treba razumjeti o korelaciji je da ona samo pokazuje koliko su blisko povezane dvije varijable. Korelacija, međutim, ne impliciraiz navedenog raspona.
Da bismo bolje razumjeli logiku, pogledajmo kako formula izračunava koeficijente istaknute na gornjoj snimci zaslona.
Prvo, idemo ispitajte formulu u B18, koja pronalazi korelaciju između mjesečne temperature (B2:B13) i prodanih grijača (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
U prvoj funkciji OFFSET, ROWS($1: 1) transformirao se u RETKE ($1:3) jer je druga koordinata relativna, pa se mijenja na temelju relativnog položaja retka u koji je formula kopirana (2 retka prema dolje). Dakle, ROWS() vraća 3, od čega oduzimamo 1 i dobivamo raspon koji je 2 stupca desno od izvornog raspona, tj. $D$2:$D$13 (prodaja grijača).
drugi OFFSET ne mijenja navedeni raspon $B$2:$B$13 (temperatura) jer COLUMNS($A:A)-1 vraća nulu.
Kao rezultat, naša duga formula pretvara se u jednostavan CORREL( $D$2:$D$13, $B$2:$B$13) i vraća točno onaj koeficijent koji želimo.
Formula u C18 koja izračunava koeficijent korelacije za troškove oglašavanja (C2:C13) i prodaju ( D2:D13) radi na sličan način:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
Prva funkcija OFFSET jepotpuno isto kao što je gore opisano, vraćajući raspon od $D$2:$D$13 (prodaja grijača).
U drugom OFFSET-u, COLUMNS($A:A)-1 mijenja se u COLUMNS($A: B)-1 jer smo kopirali stupac formule 1 s desne strane. Posljedično, OFFSET dobiva raspon koji je 1 stupac desno od izvornog raspona, tj. $C$2:$C$13 (trošak oglašavanja).
Kako iscrtati korelacijski grafikon u Excelu
Kada radite korelaciju u Excelu, najbolji način da dobijete vizualni prikaz odnosa između vaših podataka je da nacrtate digram raspršenosti s crtom trenda . Evo kako:
- Odaberite dva stupca s numeričkim podacima, uključujući zaglavlja stupaca. Redoslijed stupaca je važan: nezavisna varijabla treba biti u lijevom stupcu budući da se ovaj stupac iscrtava na x osi; zavisna varijabla bi trebala biti u desnom stupcu jer će biti iscrtana na y osi.
- Na kartici Inset , u Chats grupi, kliknite ikonu Rastrzani grafikon. Ovo će odmah umetnuti XY raspršeni grafikon u vaš radni list.
- Desnom tipkom miša kliknite bilo koju podatkovnu točku na grafikonu i odaberite Dodaj liniju trenda… iz kontekstnog izbornika.
Za detaljne upute korak po korak pogledajte:
- Kako stvoriti dijagram raspršenosti u Excelu
- Kako dodati crtu trenda na Excel grafikon
Za naš uzorak skupa podataka, korelacijski grafikoni izgledaju kao što je prikazano na slici ispod.Osim toga, prikazali smo vrijednost R-kvadrata, koja se naziva i Koeficijent determinacije . Ova vrijednost pokazuje koliko dobro linija trenda odgovara podacima - što je R2 bliži 1, to bolje odgovara.
Iz vrijednosti R2 prikazane na vašem dijagramu raspršenja možete jednostavno izračunati koeficijent korelacije:
- Za veću točnost, neka Excel prikazuje više znamenki u vrijednosti R-kvadrata nego što je to uobičajeno.
- Kliknite R2 vrijednost na grafikonu, odaberite je pomoću miša i pritisnite Ctrl + C da biste ga kopirali.
- Izvucite kvadratni korijen iz R2 ili pomoću funkcije SQRT ili podizanjem kopirane vrijednosti R2 na potenciju 0,5.
Na primjer, Vrijednost R2 u drugom grafikonu je 0,9174339392. Dakle, možete pronaći korelacijski koeficijent za Oglašavanje i Prodane grijalice pomoću jedne od ovih formula:
=SQRT(0.9174339392)
=0.9174339392^0.5
Kao što se možete uvjeriti, koeficijenti izračunati na ovaj način savršeno su u skladu s koeficijentima korelacije iz prethodnih primjera, osim znaka :
Potencijalni problemi s korelacijom u Excelu
Pearsonova korelacija momenta proizvoda otkriva samo linearni odnos između dvije varijable. Što znači, vaše varijable mogu biti snažno povezane na drugi, krivolinijski način, a da i dalje imaju korelacijski koeficijent jednak ili blizu nule.
Pearsonova korelacija ne možerazlikovati ovisne i neovisne varijable. Na primjer, korištenjem funkcije CORREL za pronalaženje povezanosti između prosječne mjesečne temperature i broja prodanih grijača dobili smo koeficijent -0,97, što ukazuje na visoku negativnu korelaciju. Međutim, možete mijenjati varijable i dobiti isti rezultat. Dakle, netko može zaključiti da veća prodaja grijača uzrokuje pad temperature, što očito nema smisla. Stoga, kada izvodite korelacijsku analizu u Excelu, vodite računa o podacima koje dostavljate.
Osim toga, Pearsonova korelacija je vrlo osjetljiva na outliere . Ako imate jednu ili više podatkovnih točaka koje se uvelike razlikuju od ostalih podataka, možete dobiti iskrivljenu sliku odnosa između varijabli. U ovom slučaju, bilo bi pametno umjesto toga upotrijebiti Spearmanovu korelaciju ranga.
Tako se radi korelacija u Excelu. Da biste pobliže pogledali primjere o kojima se govori u ovom vodiču, slobodno možete preuzeti naš primjer radne knjige u nastavku. Zahvaljujem vam na čitanju i nadam se da se vidimo na našem blogu sljedeći tjedan!
Radna bilježnica
Izračunajte korelaciju u Excelu (.xlsx datoteka)
uzročnost. Činjenica da su promjene u jednoj varijabli povezane s promjenama u drugoj varijabli ne znači da jedna varijabla zapravo uzrokuje promjenu druge.Ako ste zainteresirani za učenje uzročnosti i predviđanja, napravite korak naprijed i provesti linearnu regresijsku analizu.
Koeficijent korelacije u Excelu - tumačenje korelacije
Numerička mjera stupnja povezanosti između dviju kontinuiranih varijabli naziva se koeficijent korelacije ( r).
Vrijednost koeficijenta je uvijek između -1 i 1 i mjeri snagu i smjer linearnog odnosa između varijabli.
Snaga
Veće što je apsolutna vrijednost koeficijenta, odnos je jači:
- Ekstremne vrijednosti -1 i 1 označavaju savršen linearni odnos kada sve podatkovne točke padaju na liniju. U praksi se rijetko uočava savršena korelacija, pozitivna ili negativna.
- Koeficijent 0 ukazuje da nema linearnog odnosa između varijabli. To je ono što ćete vjerojatno dobiti s dva skupa nasumičnih brojeva.
- Vrijednosti između 0 i +1/-1 predstavljaju ljestvicu slabih, umjerenih i jakih odnosa. Kako se r približava ili -1 ili 1, snaga odnosa se povećava.
Smjer
Znak koeficijenta (plus ili minus) označava smjeruodnos.
- Pozitivni koeficijenti predstavljaju izravnu korelaciju i proizvode uzlazni nagib na grafikonu - kako jedna varijabla raste, tako se povećava i druga, i obrnuto.
- Negativni koeficijenti predstavljaju inverznu korelaciju i proizvode silazni nagib na grafikonu - kako jedna varijabla raste, druga varijabla ima tendenciju smanjenja.
Za bolje razumijevanje, molimo pogledajte sljedeće korelacijske grafikone:
- Koeficijent 1 znači savršen pozitivan odnos - kako jedna varijabla raste, druga se proporcionalno povećava.
- Koeficijent -1 znači savršen negativan odnos - kako jedna varijabla raste, druga se proporcionalno smanjuje.
- Koeficijent 0 znači da nema veze između dvije varijable - podatkovne točke su razbacane po cijelom grafikonu.
Pearsonova korelacija
U statistici se mjeri nekoliko vrsta korelacije ovisno o vrsti podataka s kojima radite. U ovom vodiču usredotočit ćemo se na onu najuobičajeniju.
Pearsonova korelacija , puni naziv je Pearsonova korelacija momenta proizvoda (PPMC), koristi se za procijeniti linearne odnose između podataka kada je promjena u jednoj varijabli povezana s proporcionalnom promjenom u drugoj varijabli. Jednostavno rečeno, Pearsonova korelacija odgovara na pitanje: mogu li se podaci prikazati na alinija?
U statistici, to je najpopularnija vrsta korelacije, a ako se bavite "koeficijentom korelacije" bez dodatnih kvalifikacija, najvjerojatnije je da je to Pearson.
Evo najčešće korištena formula za pronalaženje Pearsonovog korelacijskog koeficijenta, također nazvana Pearsonov R :
Ponekad možete naići na dvije druge formule za izračun uzorkovog koeficijenta korelacije (r) i koeficijent korelacije populacije (ρ).
Kako napraviti Pearsonovu korelaciju u Excelu
Ručno izračunavanje Pearsonovog koeficijenta korelacije uključuje dosta matematike . Srećom, Microsoft Excel je učinio stvari vrlo jednostavnim. Ovisno o vašem skupu podataka i vašem cilju, slobodni ste koristiti jednu od sljedećih tehnika:
- Pronađite Pearsonov koeficijent korelacije s funkcijom CORREL.
- Napravite korelacijsku matricu pomoću izvođenje analize podataka.
- Pronađite višestruke korelacijske koeficijente pomoću formule.
- Nacrtajte korelacijski graf da biste dobili vizualni prikaz odnosa podataka.
Kako izračunati koeficijent korelacije u Excelu
Da biste ručno izračunali koeficijent korelacije, morali biste koristiti ovu dugačku formulu. Da biste pronašli koeficijent korelacije u Excelu, upotrijebite funkciju CORREL ili PEARSON i dobijte rezultat u djeliću sekunde.
Funkcija CORREL programa Excel
Funkcija CORREL vraćaPearsonov koeficijent korelacije za dva skupa vrijednosti. Sintaksa mu je vrlo laka i jasna:
CORREL(niz1, niz2)Gdje je:
- Niz1 prvi raspon vrijednosti.
- Niz2 je drugi raspon vrijednosti.
Dva niza trebaju imati jednaku duljinu.
Pretpostavimo da imamo skup nezavisnih varijabli ( x ) u B2:B13 i zavisne varijable (y) u C2:C13, naša formula koeficijenta korelacije ide kako slijedi:
=CORREL(B2:B13, C2:C13)
Ili bismo mogli zamijeniti raspone i dalje dobiti isti rezultat:
=CORREL(C2:C13, B2:B13)
U svakom slučaju, formula pokazuje jaku negativnu korelaciju (oko -0,97) između prosječne mjesečne temperature i broja prodanih grijača:
3 stvari koje biste trebali znati o funkciji CORREL u Excelu
Da biste uspješno izračunali koeficijent korelacije u Excelu, imajte na umu ove 3 jednostavne činjenice:
- Ako jedna ili više ćelija u nizu sadrži tekst, logičke vrijednosti ili praznine, takve se ćelije zanemaruju; izračunavaju se ćelije s nultim vrijednostima.
- Ako su isporučeni nizovi različitih duljina, vraća se pogreška #N/A.
- Ako je bilo koji od nizova prazan ili ako je standardna devijacija njihove vrijednosti jednake su nuli, a #DIV/0! javlja se pogreška.
Excel PEARSON funkcija
PEARSON funkcija u Excelu radi istu stvar - izračunava Pearsonov koeficijent korelacije momenta proizvoda.
PEARSON(niz1,array2)Gdje je:
- Array1 je raspon neovisnih vrijednosti.
- Array2 je raspon ovisnih vrijednosti.
Budući da i PEARSON i CORREL izračunavaju Pearsonov koeficijent linearne korelacije, njihovi bi se rezultati trebali slagati, a općenito je tako u novijim verzijama Excela 2007 do Excela 2019.
U Excelu 2003 i u ranijim verzijama, međutim, funkcija PEARSON može prikazati neke pogreške zaokruživanja. Stoga se u starijim verzijama preporučuje korištenje CORREL-a umjesto PEARSON-a.
Na našem oglednom skupu podataka, obje funkcije pokazuju iste rezultate:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Kako napraviti korelacijsku matricu u Excelu s analizom podataka
Kada trebate testirati međusobne odnose između više od dvije varijable, ima smisla konstruirati korelacijsku matricu, koja se ponekad naziva koeficijent višestruke korelacije .
Korelacijska matrica je tablica koja prikazuje koeficijente korelacije između varijabli na sjecištu odgovarajućih redaka i stupaca.
Korelacijska matrica u Excelu izgrađena je pomoću alata Correlation iz dodatka Analysis ToolPak . Ovaj je dodatak dostupan u svim verzijama Excela 2003 do Excela 2019, ali nije omogućen prema zadanim postavkama. Ako ga još niste aktivirali, učinite to sada slijedeći korake opisane u Kako omogućiti Data Analysis ToolPak u programu Excel.
Salata za analizu podataka dodanih na vašu Excel vrpcu, spremni ste za pokretanje analize korelacije:
- U gornjem desnom kutu kartice Podaci > Analiza grupi kliknite gumb Analiza podataka .
- U dijaloškom okviru Analiza podataka odaberite Korelacija i kliknite U redu.
- U okviru Korelacija konfigurirajte parametre na ovaj način:
- Kliknite u okvir Ulazni raspon i odaberite raspon pomoću vaše izvorne podatke, uključujući zaglavlja stupaca (B1:D13 u našem slučaju).
- U odjeljku Grupirano po provjerite je li radio okvir Stupci odabran (dano da su vaši izvorni podaci grupirani u stupce).
- Odaberite potvrdni okvir Oznake u prvom redu ako odabrani raspon sadrži zaglavlja stupaca.
- Odaberite željenu izlaznu opciju. Da biste matricu imali na istom listu, odaberite Output Range i navedite referencu na krajnju lijevu ćeliju u koju će matrica biti ispisana (A15 u ovom primjeru).
Kada završite, kliknite gumb U redu :
Vaša matrica korelacijskih koeficijenata je gotova i trebala bi izgledati otprilike kao što je prikazano u sljedećem odjeljku.
Tumačenje rezultata korelacijske analize
U vašoj Excel korelacijskoj matrici možete pronaći koeficijente na sjecištu redaka i stupaca. Ako su koordinate stupca i retka iste, ispisuje se vrijednost 1.
U gornjemNa primjer, zanima nas korelacija između zavisne varijable (broj prodanih grijača) i dvije nezavisne varijable (prosječna mjesečna temperatura i troškovi oglašavanja). Dakle, gledamo samo brojeve na sjecištu ovih redaka i stupaca, koji su istaknuti na snimci zaslona u nastavku:
Negativan koeficijent od -0,97 (zaokruženo na 2 decimalna mjesta) pokazuje jaku inverznu korelaciju između mjesečna temperatura i prodaja grijača - kako temperatura raste, manje grijača se prodaje.
Pozitivni koeficijent od 0,97 (zaokruženo na 2 decimale) ukazuje na jaku izravnu vezu između proračuna za oglašavanje i prodaje - što više novac koji potrošite na oglašavanje, veća je prodaja.
Kako napraviti višestruku korelacijsku analizu u Excelu s formulama
Izrada korelacijske tablice s alatom za analizu podataka je jednostavna. Međutim, ta je matrica statična, što znači da ćete morati ponovno pokrenuti korelacijsku analizu svaki put kad se izvorni podaci promijene.
Dobra vijest je da možete jednostavno sami izraditi sličnu korelacijsku tablicu, a ta će se matrica automatski ažurirati sa svakom promjenom izvornih vrijednosti.
Da biste to učinili, koristite ovu generičku formulu:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( prvi_raspon_varijable , 0, COLUMNS($A:A)-1))Važna napomena! Da bi formula radila, trebali biste zaključatiprvi raspon varijabli korištenjem apsolutnih referenci ćelija.
U našem slučaju, prvi raspon varijabli je $B$2:$B$13 (molimo da primijetite znak $ koji zaključava referencu), a naša formula korelacije uzima ovo oblik:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Sa formulom spremnom, konstruirajmo korelacijsku matricu:
- U prvi redak i prvi stupac matrice upišite varijable' oznake istim redoslijedom kako se pojavljuju u vašoj izvornoj tablici (pogledajte snimak zaslona u nastavku).
- Unesite gornju formulu u krajnju lijevu ćeliju (B16 u našem slučaju).
- Povucite formulu dolje i desno kako biste je kopirali u onoliko redaka i stupaca koliko je potrebno (3 retka i 3 stupca u našem primjeru).
Kao rezultat, dobili smo sljedeću matricu s višestrukom korelacijom koeficijenti. Imajte na umu da su koeficijenti vraćeni našom formulom potpuno isti kao i izlaz Excela u prethodnom primjeru (relevantni su istaknuti):
Kako ova formula radi
Kao što već znate, funkcija Excel CORREL vraća koeficijent korelacije za dva skupa varijabli koje navedete. Glavni izazov je osigurati odgovarajuće raspone u odgovarajućim ćelijama matrice. U tu svrhu unosite samo prvi raspon varijable u formulu i koristite sljedeće funkcije za potrebne prilagodbe:
- OFFSET - vraća raspon koji je zadani broj redaka i stupaca