Korrelatsioon Excelis: koefitsient, maatriks ja graafik

Sisukord

Õpik selgitab korrelatsiooni põhitõdesid Excelis, näitab, kuidas arvutada korrelatsioonikoefitsienti, koostada korrelatsioonimaatriksit ja tõlgendada tulemusi.

Üks lihtsamaid statistilisi arvutusi, mida saab Excelis teha, on korrelatsioon. Kuigi see on lihtne, on see väga kasulik kahe või enama muutuja vaheliste seoste mõistmiseks. Microsoft Excel pakub kõiki vajalikke vahendeid korrelatsioonianalüüsi tegemiseks, tuleb vaid osata neid kasutada.

Korrelatsioon Excelis - põhitõed

Korrelatsioon on näitaja, mis kirjeldab kahe muutuja vahelise seose tugevust ja suunda. Seda kasutatakse tavaliselt statistikas, majanduses ja sotsiaalteadustes eelarvetes, äriplaanides jms.

Meetodit, mida kasutatakse selleks, et uurida, kui tihedalt muutujad on omavahel seotud, nimetatakse korrelatsioonianalüüs .

Siin on paar näidet tugevast korrelatsioonist:

Söödud kalorite arv ja kaal (positiivne korrelatsioon)
Välistemperatuur ja teie küttearved (negatiivne korrelatsioon)

Ja siin on näited andmete kohta, mille korrelatsioon on nõrk või puudub:

Teie kassi nimi ja tema lemmiktoit
Teie silmade värvus ja pikkus

Oluline on mõista korrelatsiooni kohta, et see näitab ainult seda, kui tihedalt on kaks muutujat omavahel seotud. Korrelatsioon ei tähenda aga põhjuslikku seost. Asjaolu, et ühe muutuja muutused on seotud teise muutuja muutustega, ei tähenda, et üks muutuja tegelikult põhjustab teise muutuse.

Kui olete huvitatud põhjuslikkusest ja prognooside tegemisest, astuge sammu edasi ja tehke lineaarne regressioonanalüüs.

Korrelatsioonikoefitsient Excelis - korrelatsiooni tõlgendamine

Kahe pideva muutuja vahelise seose määra numbrilist mõõdet nimetatakse korrelatsioonikoefitsient (r).

Koefitsiendi väärtus jääb alati vahemikku -1 ja 1 ning see mõõdab nii muutujate vahelise lineaarse seose tugevust kui ka suunda.

Tugevus

Mida suurem on koefitsiendi absoluutväärtus, seda tugevam on seos:

Ekstreemväärtused -1 ja 1 näitavad täiuslikku lineaarset seost, kui kõik andmepunktid langevad ühele joonele. Praktikas täheldatakse harva täiuslikku korrelatsiooni, nii positiivset kui ka negatiivset.
Koefitsient 0 näitab, et muutujate vahel ei ole lineaarset seost. See on see, mida sa tõenäoliselt saad kahe juhuslike numbrite kogumi puhul.
Väärtused vahemikus 0 ja +1/-1 tähistavad nõrku, mõõdukaid ja tugevaid seoseid. r läheneb kas -1-le või 1-le, suureneb seose tugevus.

Suund

Koefitsiendi märk (pluss või miinus) näitab seose suunda.

Positiivne koefitsiendid kujutavad endast otsest korrelatsiooni ja tekitavad graafikul tõusu - kui üks muutuja suureneb, suureneb ka teine ja vastupidi.
Negatiivne koefitsiendid kujutavad endast pöördvõrdelist korrelatsiooni ja tekitavad graafikul allapoole kalde - kui üks muutuja suureneb, kipub teine muutuja vähenema.

Paremaks mõistmiseks vaadake palun järgmisi korrelatsioonigraafikuid:

Koefitsient 1 tähendab täiuslikku positiivset seost - kui üks muutuja suureneb, suureneb proportsionaalselt ka teine muutuja.
Koefitsient -1 tähendab täiuslikku negatiivset seost - kui üks muutuja suureneb, väheneb proportsionaalselt ka teine.
Koefitsient 0 tähendab, et kahe muutuja vahel puudub seos - andmepunktid on hajutatud üle kogu graafiku.

Pearsoni korrelatsioon

Statistikas mõõdetakse mitut tüüpi korrelatsioone, sõltuvalt sellest, millist tüüpi andmetega töötate. Selles õpetuses keskendume kõige levinumale.

Pearsoni korrelatsioon , täisnimi on Pearsoni tootemomendi korrelatsioon (PPMC), kasutatakse hindamiseks lineaarne andmete vahelisi seoseid, kui ühe muutuja muutus on seotud teise muutuja proportsionaalse muutusega. Lihtsustatult öeldes vastab Pearsoni korrelatsioon küsimusele: Kas andmeid saab kujutada joonel?

Statistikas on see kõige populaarsem korrelatsioonitüüp ja kui tegemist on "korrelatsioonikoefitsiendiga" ilma täiendava kvalifikatsioonita, siis on see tõenäoliselt Pearson.

Vaata ka: Kuidas arvutada kaalutud keskmist Excelis (SUM ja SUMPRODUCT valemid)

Siin on kõige sagedamini kasutatav valem Pearsoni korrelatsioonikoefitsiendi leidmiseks, mida nimetatakse ka Pearsoni R :

Mõnikord võib kohata veel kahte valemit, mille abil saab arvutada valimi korrelatsioonikoefitsient (r) ja rahvastiku korrelatsioonikoefitsient (ρ).

Kuidas teha Pearsoni korrelatsiooni Excelis

Pearsoni korrelatsioonikoefitsiendi arvutamine käsitsi hõlmab üsna palju matemaatikat. Õnneks on Microsoft Excel teinud asja väga lihtsaks. Sõltuvalt teie andmestikust ja eesmärgist võite vabalt kasutada ühte järgmistest meetoditest:

Leia Pearsoni korrelatsioonikoefitsient funktsiooniga CORREL.
Koostage korrelatsioonimaatriks, tehes andmeanalüüsi.
Leia mitme korrelatsioonikoefitsiendi valemiga.
Joonistage korrelatsioonigraafik, et saada andmete seose visuaalne esitus.

Kuidas arvutada korrelatsioonikoefitsienti Excelis

Korrelatsioonikoefitsiendi arvutamiseks käsitsi peate kasutama seda pikka valemit. Korrelatsioonikoefitsiendi leidmiseks Excelis kasutage funktsiooni CORREL või PEARSON ja saate tulemuse sekundi murdosa jooksul.

Exceli funktsioon CORREL

Funktsioon CORREL tagastab Pearsoni korrelatsioonikoefitsiendi kahe väärtuste kogumi jaoks. Selle süntaks on väga lihtne ja arusaadav:

CORREL(array1, array2)

Kus:

Array1 on esimene väärtusvahemik.
Array2 on teine väärtusvahemik.

Mõlemad massiivid peaksid olema võrdse pikkusega.

Eeldades, et meil on hulk sõltumatuid muutujaid ( x ) B2:B13 ja sõltuvad muutujad (y) C2:C13, siis meie korrelatsioonikoefitsiendi valem on järgmine:

=CORREL(B2:B13, C2:C13)

Või võime vahetada vahemikke ja saada ikkagi sama tulemuse:

=CORREL(C2:C13, B2:B13)

Igal juhul näitab valem tugevat negatiivset korrelatsiooni (umbes -0,97) kuu keskmise temperatuuri ja müüdud kütteseadmete arvu vahel:

3 asja, mida peaksite teadma Exceli funktsioonist CORREL

Korrelatsioonikoefitsiendi edukaks arvutamiseks Excelis pidage meeles neid 3 lihtsat fakti:

Kui massiivi üks või mitu lahtrit sisaldab teksti, loogilisi väärtusi või tühikuid, siis neid lahtreid ei võeta arvesse; nullväärtustega lahtrid arvutatakse.
Kui esitatud massiivid on erineva pikkusega, tagastatakse #N/A viga.
Kui üks massiividest on tühi või kui nende väärtuste standardhälve on null, tekib viga #DIV/0!.

Exceli PEARSON funktsioon

Exceli funktsioon PEARSON teeb sama asja - arvutab Pearsoni tootemomendi korrelatsioonikoefitsiendi.

PEARSON(array1, array2)

Kus:

Array1 on sõltumatute väärtuste vahemik.
Array2 on sõltuvate väärtuste vahemik.

Kuna PEARSON ja CORREL arvutavad mõlemad Pearsoni lineaarset korrelatsioonikoefitsienti, peaksid nende tulemused olema kooskõlas, ja üldiselt on see nii Exceli 2007 kuni Excel 2019 viimastes versioonides.

Excel 2003 ja varasemates versioonides võib PEARSON funktsioon siiski näidata mõningaid ümardamisvigu. Seetõttu on vanemates versioonides soovitatav kasutada PEARSONi asemel pigem CORRELi.

Meie näidisandmestiku puhul annavad mõlemad funktsioonid samu tulemusi:

=CORREL(B2:B13, C2:C13)

=PEARSON(B2:B13, C2:C13)

Kuidas teha korrelatsioonimaatriks Excelis koos andmeanalüüsiga

Kui on vaja testida rohkem kui kahe muutuja vahelisi seoseid, on mõistlik konstrueerida korrelatsioonimaatriks, mida mõnikord nimetatakse ka mitmekordne korrelatsioonikoefitsient .

The korrelatsioonimaatriks on tabel, mis näitab vastavate ridade ja veergude ristumiskohas olevate muutujate vahelisi korrelatsioonikoefitsiente.

Korrelatsioonimaatriks on Excelis koostatud kasutades valemit Korrelatsioon tööriista alates Analysis ToolPak See lisand. See lisand on saadaval kõigis Excel 2003 kuni Excel 2019 versioonides, kuid ei ole vaikimisi aktiveeritud. Kui te ei ole seda veel aktiveerinud, siis palun tehke seda nüüd, järgides samme, mida on kirjeldatud peatükis Kuidas aktiveerida Data Analysis ToolPak Excelis.

Kui Exceli ribale on lisatud andmeanalüüsi tööriistad, olete valmis korrelatsioonianalüüsi teostamiseks:

Üleval paremas nurgas on Andmed tab> Analüüs rühma, klõpsake nuppu Andmete analüüs nupp.
In the Andmete analüüs dialoogiaknas valige Korrelatsioon ja klõpsake OK.
In the Korrelatsioon kasti, seadistage parameetrid selliselt:
- Klõpsake Sisendvahemik ja valige vahemik, kus on teie lähteandmed, sealhulgas veeru pealkirjad (meie puhul B1:D13).
- In the Grupeeritud jagu, veenduge, et Veerud on valitud (arvestades, et teie lähteandmed on rühmitatud veergudeks).
- Valige Sildid esimeses reas märkeruut, kui valitud vahemik sisaldab veergude päiseid.
- Valige soovitud väljastusviis. Kui soovite, et maatriks oleks samal lehel, valige Väljundvahemik ja määrata viide kõige vasakpoolsemale lahtrisse, kuhu maatriks tuleb väljastada (antud näites A15).

Kui olete lõpetanud, klõpsake nuppu OK nuppu:

Teie korrelatsioonikoefitsientide maatriks on valmis ja peaks välja nägema umbes nii, nagu on näidatud järgmises lõigus.

Korrelatsioonianalüüsi tulemuste tõlgendamine

Exceli korrelatsioonimaatriksist leiate koefitsiendid ridade ja veergude ristumiskohas. Kui veeru ja rea koordinaadid on samad, siis väljastatakse väärtus 1.

Ülaltoodud näites oleme huvitatud sõltuva muutuja (müüdud kütteseadmete arv) ja kahe sõltumatu muutuja (keskmine kuutemperatuur ja reklaamikulud) vahelisest korrelatsioonist. Seega vaatame ainult nende ridade ja veergude ristumiskohas olevaid numbreid, mis on alljärgneval ekraanipildil esile toodud:

Negatiivne koefitsient -0,97 (ümardatud kahe kümnendkohani) näitab tugevat pöördvõrdelist korrelatsiooni igakuise temperatuuri ja kütteseadmete müügi vahel - mida kõrgemaks temperatuur muutub, seda vähem kütteseadmeid müüakse.

Positiivne koefitsient 0,97 (ümardatud kahe kümnendkohani) näitab tugevat otsest seost reklaamieelarve ja müügi vahel - mida rohkem raha kulutate reklaamile, seda suurem on müük.

Kuidas teha mitmekordset korrelatsioonianalüüsi Excelis valemitega

Korrelatsioonitabeli koostamine andmeanalüüsi tööriistaga on lihtne. See maatriks on siiski staatiline, mis tähendab, et peate korrelatsioonianalüüsi iga kord, kui lähteandmed muutuvad, uuesti käivitama.

Hea uudis on see, et te saate ise hõlpsasti koostada sarnase korrelatsioonitabeli ja see maatriks uuendatakse automaatselt iga muutuse korral lähteväärtustes.

Selleks kasutage seda üldist valemit:

CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, VEERUD($A:A)-1))

Oluline märkus! Valemi toimimiseks peate lukustama esimese muutuja vahemiku, kasutades absoluutseid lahtriviiteid.

Meie puhul on esimene muutuja vahemik $B$2:$B$13 (märkige $-märki, mis lukustab viite) ja meie korrelatsioonivalem võtab sellise kuju:

=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

Kui valem on valmis, konstrueerime korrelatsioonimaatriksi:

Kirjutage maatriksi esimesele reale ja esimesele veerule muutujate sildid samas järjekorras, nagu need on esitatud teie lähtetabelis (vt allpool olevat ekraanipilti).
Sisestage ülaltoodud valem kõige vasakpoolsemasse lahtrisse (meie puhul B16).
Lohistage valemit allapoole ja paremale, et kopeerida see nii paljudesse ridadesse ja veergudesse kui vaja (meie näites 3 rida ja 3 veergu).

Tulemusena saime järgmise maatriksi mitme korrelatsioonikoefitsiendiga. Pange tähele, et meie valemiga tagastatud koefitsiendid on täpselt samad, mis Excel andis välja eelmises näites (asjakohased koefitsiendid on esile tõstetud):

Kuidas see valem töötab

Nagu te juba teate, tagastab Exceli funktsioon CORREL korrelatsioonikoefitsiendi kahe teie poolt määratud muutujate kogumi jaoks. Peamine väljakutse on anda vastavad vahemikud maatriksi vastavatesse lahtritesse. Selleks sisestate valemisse ainult esimese muutuja vahemiku ja kasutate järgmisi funktsioone vajalike kohanduste tegemiseks:

OFFSET - tagastab vahemiku, mis on antud arvu ridade ja veergude kaugusel määratud vahemikust.
ROWS ja COLUMNS - tagastavad vastavalt vahemikus olevate ridade ja veergude arvu. Meie korrelatsioonivalemis kasutatakse mõlemat ühel eesmärgil - saada algsest vahemikust nihutatavate veergude arv. Ja see saavutatakse, kasutades nutikalt absoluutseid ja suhtelisi viiteid.

Loogika paremaks mõistmiseks vaatame, kuidas valem arvutab ülaltoodud ekraanipildil esile toodud koefitsiente.

Kõigepealt uurime valemit B18, milles leitakse korrelatsioon igakuise temperatuuri (B2:B13) ja müüdud soojuse (D2:D13) vahel:

=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

Esimeses OFFSET-funktsioonis on ROWS($1:1) muutunud ROWS($1:3), sest teine koordinaat on suhteline, seega muutub see vastavalt selle rea suhtelisele positsioonile, kuhu valem kopeeritakse (2 rida allapoole). Seega annab ROWS() tagasi 3, millest me lahutame 1 ja saame vahemiku, mis on 2 veergu paremal pool lähtevahemikust, st $D$2:$D$13 (kütte müük).

Teine OFFSET ei muuda määratud vahemikku $B$2:$B$13 (temperatuur), sest COLUMNS($A:A)-1 tagastab nulli.

Selle tulemusena muutub meie pikk valem lihtsaks CORREL($D$2:$D$13, $B$2:$B$13) ja tagastab täpselt soovitud koefitsiendi.

Valem C18, mis arvutab reklaamikulude (C2:C13) ja müügi (D2:D13) korrelatsioonikoefitsiendi, töötab sarnaselt:

=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

Vaata ka: Exceli tingimuslik vormindamine teise lahtri põhjal: video

Esimene OFFSET funktsioon on absoluutselt sama, mida on kirjeldatud eespool, tagastades vahemiku $D$2:$D$13 (kütte müük).

Teises OFFSETis muutub COLUMNS($A:A)-1 COLUMNS($A:B)-1-ks, sest me kopeerisime valemi 1 veeru võrra paremale. Järelikult saab OFFSET vahemiku, mis on 1 veeru võrra paremal lähtepiirkonnast, st $C$2:$C$13 (reklaamikulu).

Kuidas koostada korrelatsioonigraafikut Excelis

Kui teete Excelis korrelatsiooni, on parim viis oma andmete vaheliste seoste visuaalseks esitamiseks joonistada hajuvusdiagramm koos trendijoone Siin on, kuidas:

Valige kaks numbriliste andmetega veergu, sealhulgas veergude päised. Veergude järjekord on oluline: veergude sõltumatu muutuja peaks olema vasakpoolses veerus, kuna see veerg kujutatakse x-teljel; muutuja sõltuv muutuja peaks olema parempoolses veerus, kuna see joonistatakse y-teljel.
On Sisemine vahekaardil Vestlused rühma, klõpsake nuppu Scatter diagrammi ikooni. See lisab teie töölehel kohe XY hajuvusdiagrammi.
Tehke paremklõps diagrammi mis tahes andmepunktil ja valige Lisa Trendline... kontekstmenüüst.

Üksikasjalikud samm-sammulised juhised leiate siit:

Kuidas luua Excelis hajutuste graafik
Kuidas lisada trendijoon Exceli diagrammi

Meie näidisandmestiku puhul näevad korrelatsioonigraafikud välja nagu alloleval pildil. Lisaks näitasime R-ruutväärtust, mida nimetatakse ka Määratluskoefitsient See väärtus näitab, kui hästi vastab trendijoonis andmetele - mida lähemal R2 on 1, seda paremini sobib.

Teie hajuvusdiagrammil kuvatava R2 väärtuse põhjal saate hõlpsasti arvutada korrelatsioonikoefitsiendi:

Parema täpsuse saavutamiseks laske Excelil näidata R-kvoodi väärtuses rohkem numbreid, kui see vaikimisi näitab.
Klõpsake diagrammil R2 väärtusel, valige see hiirega ja vajutage selle kopeerimiseks Ctrl + C.
Saage R2 ruutjuur kas funktsiooni SQRT abil või tõstes kopeeritud R2 väärtust 0,5-i võimsusse.

Näiteks on R2 väärtus teisel graafikul 0,9174339392. Seega saate leida korrelatsioonikoefitsiendi jaoks Reklaam ja Müüdud kütteseadmed ühe sellise valemiga:

=SQRT(0.9174339392)

=0.9174339392^0.5

Nagu võite veenduda, on sel viisil arvutatud koefitsiendid täiesti kooskõlas eelmistes näidetes leitud korrelatsioonikoefitsientidega, välja arvatud märk :

Võimalikud probleemid korrelatsiooniga Excelis

The Pearsoni tootemomendi korrelatsioon paljastab ainult lineaarne seos kahe muutuja vahel. See tähendab, et teie muutujad võivad olla tugevalt seotud muul, kõverjoonelisel viisil ja korrelatsioonikoefitsient võib olla siiski võrdne või nullilähedane.

Pearsoni korrelatsioon ei suuda eristada sõltuv ja sõltumatu muutujaid. Näiteks kui kasutasime funktsiooni CORREL, et leida seos kuu keskmise temperatuuri ja müüdud kütteseadmete arvu vahel, saime koefitsiendi -0,97, mis näitab suurt negatiivset korrelatsiooni. Siiski võiks muutujaid ümber vahetada ja saada sama tulemuse. Seega võib keegi järeldada, et suurem kütteseadmete müük põhjustab temperatuuri langust, mis ilmselt ei tee mingitSeetõttu olge Excelis korrelatsioonianalüüsi tehes teadlik, milliseid andmeid te esitate.

Pealegi on Pearsoni korrelatsioon väga tundlik selle suhtes, et väljapoole jääjad Kui teil on üks või mitu andmepunkti, mis erinevad oluliselt ülejäänud andmetest, võite saada moonutatud pildi muutujate vahelisest seosest. Sellisel juhul oleks targem kasutada hoopis Spearmani pingekorrelatsiooni.

See ongi see, kuidas teha korrelatsiooni Excelis. Et lähemalt tutvuda selles õpetuses käsitletud näidetega, võite alla laadida meie näidistöövihiku. Tänan teid lugemise eest ja loodan, et näeme teid järgmisel nädalal meie blogis!

Praktiline töövihik

Korrelatsiooni arvutamine Excelis (.xlsx fail)

Eelmine postitus CSV konverteerimine Excelisse: lahendused tavalistele probleemidele

Järgmine postitus Exceli TOROW-funktsioon vahemiku või massiivi muutmiseks reaks

Michael Brown

Michael Brown on pühendunud tehnoloogia entusiast, kelle kirg on tarkvaratööriistade abil keerukate protsesside lihtsustamine. Rohkem kui kümneaastase kogemusega tehnoloogiatööstuses on ta lihvinud oma oskusi Microsoft Excelis ja Outlookis, samuti Google Sheetsis ja Docsis. Michaeli ajaveebi eesmärk on jagada oma teadmisi ja teadmisi teistega, pakkudes hõlpsasti järgitavaid näpunäiteid ja õpetusi tootlikkuse ja tõhususe parandamiseks. Olenemata sellest, kas olete kogenud professionaal või algaja, pakub Michaeli ajaveebi väärtuslikke teadmisi ja praktilisi nõuandeid nende oluliste tarkvaratööriistade maksimaalseks kasutamiseks.

#EXCELTIPS