Korelacija v Excelu: koeficient, matrika in graf

  • Deliti To
Michael Brown

V učbeniku so razložene osnove korelacije v programu Excel, prikazano je, kako izračunati korelacijski koeficient, sestaviti korelacijsko matriko in interpretirati rezultate.

Eden najpreprostejših statističnih izračunov, ki jih lahko opravite v programu Excel, je korelacija. Čeprav je preprosta, je zelo uporabna za razumevanje odnosov med dvema ali več spremenljivkami. Microsoft Excel ponuja vsa potrebna orodja za izvedbo korelacijske analize, le vedeti morate, kako jih uporabiti.

    Korelacija v programu Excel - osnove

    Korelacija je merilo, ki opisuje moč in smer razmerja med dvema spremenljivkama. pogosto se uporablja v statistiki, ekonomiji in družboslovju za proračune, poslovne načrte in podobno.

    Metoda, ki se uporablja za preučevanje tesne povezanosti spremenljivk, se imenuje korelacijska analiza .

    Tukaj je nekaj primerov močne korelacije:

    • Število zaužitih kalorij in vaša telesna teža (pozitivna korelacija)
    • zunanja temperatura in računi za ogrevanje (negativna korelacija)

    Tukaj so primeri podatkov, ki so šibko povezani ali sploh niso povezani:

    • Ime vaše mačke in njena najljubša hrana
    • Barva vaših oči in višina

    Bistveno pri razumevanju korelacije je, da le ta kaže, kako tesno sta povezani dve spremenljivki. Vendar pa korelacija ne pomeni vzročnosti. Dejstvo, da so spremembe ene spremenljivke povezane s spremembami druge spremenljivke, še ne pomeni, da ena spremenljivka dejansko povzroča spremembo druge.

    Če želite ugotoviti vzročnost in napovedati, naredite korak naprej in izvedite linearno regresijsko analizo.

    Korelacijski koeficient v programu Excel - razlaga korelacije

    Številčno merilo stopnje povezanosti med dvema zveznima spremenljivkama se imenuje korelacijski koeficient (r).

    Vrednost koeficienta je vedno med -1 in 1 in meri tako moč kot smer linearne povezave med spremenljivkama.

    Moč

    Večja kot je absolutna vrednost koeficienta, močnejša je povezava:

    • Skrajni vrednosti -1 in 1 pomenita popolno linearno povezavo, ko vse podatkovne točke ležijo na premici. V praksi je popolna korelacija, bodisi pozitivna bodisi negativna, redko opažena.
    • Koeficient 0 pomeni, da med spremenljivkama ni linearne povezave. To je tisto, kar boste verjetno dobili z dvema naključnima številkama.
    • Vrednosti med 0 in +1/-1 predstavljajo lestvico šibkih, zmernih in močnih odnosov. kot r se približuje vrednosti -1 ali 1, se moč povezave poveča.

    Smer

    Znak koeficienta (plus ali minus) označuje smer razmerja.

    • Pozitivna koeficienti predstavljajo neposredno korelacijo in na grafu kažejo naraščajočo strmino - ko ena spremenljivka narašča, narašča tudi druga in obratno.
    • Negativni koeficienti predstavljajo obratno korelacijo in na grafu kažejo padajočo strmino - ko se ena spremenljivka povečuje, se druga zmanjšuje.

    Za boljše razumevanje si oglejte naslednje korelacijske grafe:

    • Koeficient 1 pomeni popolno pozitivno razmerje - ko se ena spremenljivka poveča, se sorazmerno poveča tudi druga.
    • Koeficient -1 pomeni popolno negativno razmerje - ko se ena spremenljivka poveča, se druga sorazmerno zmanjša.
    • Koeficient 0 pomeni, da med dvema spremenljivkama ni povezave - podatkovne točke so razpršene po celotnem grafu.

    Pearsonova korelacija

    V statistiki merijo več vrst korelacije, odvisno od vrste podatkov, s katerimi delate. V tem učbeniku se bomo osredotočili na najpogostejšo.

    Pearsonova korelacija , polno ime je Pearsonova korelacija produktnega momenta (PPMC), se uporablja za ocenjevanje linearni razmerja med podatki, ko je sprememba ene spremenljivke povezana s sorazmerno spremembo druge spremenljivke. Pearsonova korelacija poenostavljeno odgovarja na vprašanje: Ali je mogoče podatke prikazati na premici?

    V statistiki je to najbolj priljubljena vrsta korelacije, in če imate opravka s "korelacijskim koeficientom" brez dodatnih pojasnil, je to najverjetneje Pearsonov koeficient.

    Tukaj je najpogosteje uporabljena formula za določitev Pearsonovega korelacijskega koeficienta, imenovanega tudi Pearsonovo R :

    Včasih lahko naletite na dve drugi formuli za izračun vzorec korelacijskega koeficienta (r) in populacijski korelacijski koeficient (ρ).

    Kako narediti Pearsonovo korelacijo v programu Excel

    Ročno izračunavanje Pearsonovega korelacijskega koeficienta vključuje precej matematike. Na srečo je Microsoft Excel stvari zelo poenostavil. Glede na nabor podatkov in cilj lahko uporabite eno od naslednjih tehnik:

    • Poiščite Pearsonov korelacijski koeficient s funkcijo CORREL.
    • Z analizo podatkov izdelajte korelacijsko matriko.
    • Poiščite večkratne korelacijske koeficiente s formulo.
    • Narišite korelacijski graf, da vizualno prikažete razmerje med podatki.

    Kako izračunati korelacijski koeficient v programu Excel

    Če želite korelacijski koeficient izračunati ročno, morate uporabiti to dolgo formulo. Če želite korelacijski koeficient poiskati v programu Excel, uporabite funkcijo CORREL ali PEARSON in rezultat dobite v delčku sekunde.

    Excelova funkcija CORREL

    Funkcija CORREL vrne Pearsonov korelacijski koeficient za dva niza vrednosti. Njena sintaksa je zelo preprosta in enostavna:

    CORREL(array1, array2)

    Kje:

    • Array1 je prvo območje vrednosti.
    • Polje2 je drugo območje vrednosti.

    Oba polja morata biti enako dolga.

    Predpostavimo, da imamo nabor neodvisnih spremenljivk ( x ) v B2:B13 in odvisne spremenljivke (y) v C2:C13, je naša formula korelacijskega koeficienta naslednja:

    =CORREL(B2:B13, C2:C13)

    Lahko pa tudi zamenjamo območja in dobimo enak rezultat:

    =CORREL(C2:C13, B2:B13)

    V vsakem primeru formula kaže močno negativno korelacijo (približno -0,97) med povprečno mesečno temperaturo in številom prodanih grelnikov:

    3 stvari, ki jih morate vedeti o funkciji CORREL v Excelu

    Če želite uspešno izračunati korelacijski koeficient v Excelu, upoštevajte ta tri preprosta dejstva:

    • Če ena ali več celic v polju vsebuje besedilo, logične vrednosti ali prazne prostore, se te celice ne upoštevajo; celice z ničelnimi vrednostmi se izračunajo.
    • Če sta dostavljena polja različnih dolžin, se vrne napaka #N/A.
    • Če je katera od njunih matrik prazna ali če je standardni odklon njunih vrednosti enak nič, se pojavi napaka #DIV/0!.

    Funkcija Excel PEARSON

    Funkcija PEARSON v Excelu naredi isto stvar - izračuna Pearsonov koeficient korelacije produktnega trenutka.

    PEARSON(array1, array2)

    Kje:

    • Array1 je razpon neodvisnih vrednosti.
    • Polje2 je razpon odvisnih vrednosti.

    Ker programa PEARSON in CORREL izračunavata Pearsonov linearni korelacijski koeficient, bi se morali njuni rezultati ujemati, kar se v zadnjih različicah programov Excel od 2007 do Excel 2019 na splošno dogaja.

    V Excelu 2003 in starejših različicah pa lahko funkcija PEARSON prikaže nekatere napake pri zaokroževanju. Zato je v starejših različicah priporočljivo uporabiti CORREL namesto PEARSON.

    Na našem vzorčnem naboru podatkov imata obe funkciji enake rezultate:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Kako izdelati korelacijsko matriko v Excelu z analizo podatkov

    Kadar je treba preveriti medsebojne povezave med več kot dvema spremenljivkama, je smiselno sestaviti korelacijsko matriko, ki se včasih imenuje večkratni korelacijski koeficient .

    Spletna stran korelacijska matrika je tabela, ki prikazuje korelacijske koeficiente med spremenljivkami na presečišču ustreznih vrstic in stolpcev.

    Korelacijska matrika v Excelu je sestavljena z uporabo Korelacija orodje iz Analitično orodje ToolPak Ta dodatek je na voljo v vseh različicah Excel 2003 do Excel 2019, vendar privzeto ni omogočen. Če ga še niste aktivirali, to storite zdaj po korakih, opisanih v poglavju Kako omogočiti orodje Data Analysis ToolPak v Excelu.

    Z orodji za analizo podatkov, dodanimi na trak programa Excel, ste pripravljeni na izvajanje korelacijske analize:

    1. V zgornjem desnem kotu Podatki zavihek> Analiza kliknite skupino Analiza podatkov gumb.
    2. V Analiza podatkov v pogovornem oknu izberite Korelacija in kliknite OK.
    3. V Korelacija nastavite parametre na ta način:
      • Kliknite na Vhodno območje in izberite območje z izvornimi podatki, vključno z naslovi stolpcev (v našem primeru B1:D13).
      • V Razdeljeno po skupinah poskrbite, da bo v razdelku Stolpci izbrano radijsko polje (če so izvorni podatki razvrščeni v stolpce).
      • Izberite Nalepke v prvi vrstici potrditveno polje, če izbrano območje vsebuje glave stolpcev.
      • Izberite želeno možnost izpisa. Če želite matriko v istem listu, izberite Razpon izhoda in določite referenco na najbolj levo celico, v katero se matrika izpiše (A15 v tem primeru).

    Ko končate, kliknite V REDU gumb:

    Matrika korelacijskih koeficientov je pripravljena in mora biti videti tako, kot je prikazano v naslednjem razdelku.

    Interpretacija rezultatov korelacijske analize

    V korelacijski matriki Excel lahko koeficiente poiščete na presečišču vrstic in stolpcev. Če sta koordinati stolpca in vrstice enaki, se izpiše vrednost 1.

    V zgornjem primeru nas zanima korelacija med odvisno spremenljivko (število prodanih grelnikov) in dvema neodvisnima spremenljivkama (povprečna mesečna temperatura in stroški oglaševanja). Zato si ogledamo samo številke na presečišču teh vrstic in stolpcev, ki so označene na spodnji sliki zaslona:

    Negativni koeficient -0,97 (zaokroženo na dve decimalni mesti) kaže na močno obratno korelacijo med mesečno temperaturo in prodajo grelnikov - z višjo temperaturo se proda manj grelnikov.

    Pozitivni koeficient 0,97 (zaokroženo na dve decimalni mesti) kaže na močno neposredno povezavo med proračunom za oglaševanje in prodajo - več denarja kot porabite za oglaševanje, večja je prodaja.

    Kako v Excelu s formulami opraviti večkratno korelacijsko analizo

    Izdelava korelacijske tabele z orodjem za analizo podatkov je preprosta. Vendar je ta matrika statična, kar pomeni, da boste morali korelacijsko analizo izvesti na novo vsakič, ko se spremenijo izvorni podatki.

    Dobra novica je, da lahko podobno korelacijsko tabelo preprosto sestavite sami in da se bo matrika samodejno posodabljala ob vsaki spremembi izvornih vrednosti.

    Če želite to storiti, uporabite to splošno formulo:

    CORREL(OFFSET( first_variable_range , 0, VRSTICE($1:1)-1), OFFSET( first_variable_range , 0, STOLPCI($A:A)-1))

    Pomembna opomba! Če želite, da formula deluje, morate prvi obseg spremenljivk zakleniti z uporabo absolutnih referenc na celice.

    V našem primeru je obseg prve spremenljivke $B$2:$B$13 (opazite znak $, ki zapira referenco), naša korelacijska formula pa ima to obliko:

    =CORREL(OFFSET($B$2:$B$13, 0, VRSTICE($1:1)-1), OFFSET($B$2:$B$13, 0, STOLPCI($A:A)-1))

    S pripravljeno formulo sestavimo korelacijsko matriko:

    1. V prvo vrstico in prvi stolpec matrike vnesite oznake spremenljivk v enakem vrstnem redu, kot so prikazane v izvorni tabeli (glejte spodnjo sliko zaslona).
    2. Vnesite zgornjo formulo v najbolj levo celico (v našem primeru B16).
    3. Povlecite formulo navzdol in desno, da jo kopirate v poljubno število vrstic in stolpcev (v našem primeru v 3 vrstice in 3 stolpce).

    Rezultat je naslednja matrika z več korelacijskimi koeficienti. Opazite, da so koeficienti, ki jih vrne naša formula, popolnoma enaki tistim, ki jih je Excel prikazal v prejšnjem primeru (ustrezni koeficienti so poudarjeni):

    Kako deluje ta formula

    Kot že veste, funkcija Excel CORREL vrne korelacijski koeficient za dva sklopa spremenljivk, ki ju določite. Glavni izziv je zagotoviti ustrezna območja v ustreznih celicah matrike. V ta namen v formulo vnesete samo prvo območje spremenljivk in uporabite naslednje funkcije za potrebne prilagoditve:

    • OFFSET - vrne območje, ki je za določeno število vrstic in stolpcev oddaljeno od določenega območja.
    • ROWS in COLUMNS - vrneta število vrstic oziroma stolpcev v območju. V naši korelacijski formuli sta uporabljena z enim samim namenom - pridobiti število stolpcev, ki jih je treba odmakniti od začetnega območja. To dosežemo s spretno uporabo absolutnih in relativnih referenc.

    Za boljše razumevanje logike si oglejmo, kako formula izračuna koeficiente, poudarjene na zgornji sliki zaslona.

    Najprej preučimo formulo v B18, ki ugotavlja povezavo med mesečno temperaturo (B2:B13) in prodanimi grelniki (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, VRSTICE($1:3)-1), OFFSET($B$2:$B$13, 0, STOLPCI($A:A)-1))

    V prvi funkciji OFFSET se ROWS($1:1) spremeni v ROWS($1:3), ker je druga koordinata relativna, torej se spremeni glede na relativni položaj vrstice, v katero je kopirana formula (2 vrstici navzdol). Tako funkcija ROWS() vrne 3, od katere odštejemo 1 in dobimo območje, ki je 2 stolpca desno od izvornega območja, tj. $D$2:$D$13 (prodaja ogreval).

    Drugi OFFSET ne spremeni določenega območja $B$2:$B$13 (temperatura), ker COLUMNS($A:A)-1 vrne nič.

    Tako se naša dolga formula spremeni v preprosto CORREL($D$2:$D$13, $B$2:$B$13) in vrne točno želeni koeficient.

    Formula v C18, ki izračuna korelacijski koeficient za stroške oglaševanja (C2:C13) in prodajo (D2:D13), deluje na podoben način:

    =CORREL(OFFSET($B$2:$B$13, 0, VRSTICE($1:3)-1), OFFSET($B$2:$B$13, 0, STOLPCI($A:B)-1))

    Prva funkcija OFFSET je popolnoma enaka zgoraj opisani, saj vrne območje $D$2:$D$13 (prodaja grelnikov).

    V drugem OFFSET-u se COLUMNS($A:A)-1 spremeni v COLUMNS($A:B)-1, ker smo formulo prekopirali za 1 stolpec v desno. Posledično OFFSET dobi območje, ki je za 1 stolpec desno od izvornega območja, tj. $C$2:$C$13 (stroški oglaševanja).

    Kako narisati korelacijski graf v Excelu

    Pri korelaciji v programu Excel je najboljši način za vizualno predstavitev razmerij med podatki narisati razpršeni diagram z Trendline :

    1. Izberite dva stolpca s številčnimi podatki, vključno z glavo stolpca. Vrstni red stolpcev je pomemben: neodvisni mora biti v levem stolpcu, saj bo ta stolpec prikazan na osi x; spremenljivka odvisna mora biti v desnem stolpcu, saj bo prikazana na osi y.
    2. Na Vstavljena stran v zavihku Pogovori kliknite skupino Razpršitev To bo takoj vstavilo razpršeni graf XY v vaš delovni list.
    3. Z desno tipko miške kliknite katero koli podatkovno točko v grafu in izberite Dodajte Trendline... iz kontekstnega menija.

    Za podrobna navodila po korakih glejte:

    • Kako ustvariti razpršeni diagram v Excelu
    • Kako dodati linijo trenda v grafikon Excel

    Za naš vzorčni niz podatkov so korelacijski grafi videti, kot je prikazano na spodnji sliki. Poleg tega smo prikazali vrednost R-kvadrat, imenovano tudi Koeficient določitve Ta vrednost kaže, kako dobro se trendna črta ujema s podatki - bližje kot je R2 1, bolje se ujema.

    Na podlagi vrednosti R2, prikazane na razpršeni plošči, lahko preprosto izračunate korelacijski koeficient:

    1. Za večjo natančnost poskrbite, da Excel prikaže več številk v vrednosti R-kvadrat, kot je privzeto.
    2. Kliknite vrednost R2 na grafikonu, jo izberite z miško in pritisnite kombinacijo tipk Ctrl + C, da jo kopirate.
    3. Pridobite kvadratni koren R2 z uporabo funkcije SQRT ali tako, da kopirano vrednost R2 povečate na 0,5.

    Vrednost R2 v drugem grafu je na primer 0,9174339392. Tako lahko najdete korelacijski koeficient za Oglaševanje in . Prodani grelniki z eno od teh formul:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Kot se lahko prepričate, so tako izračunani koeficienti popolnoma skladni s korelacijskimi koeficienti, ugotovljenimi v prejšnjih primerih, razen znaka :

    Morebitne težave s korelacijo v programu Excel

    Spletna stran Pearsonova korelacija produktnega momenta razkriva le linearni To pomeni, da sta lahko spremenljivki močno povezani na drug, krivuljni način, pa je korelacijski koeficient še vedno enak ali blizu nič.

    Pearsonova korelacija ne more razlikovati odvisna in . neodvisni Ko smo na primer s funkcijo CORREL poiskali povezavo med povprečno mesečno temperaturo in številom prodanih grelnikov, smo dobili koeficient -0,97, kar kaže na visoko negativno korelacijo. Vendar bi lahko spremenljivke zamenjali in dobili enak rezultat. Tako bi lahko nekdo sklepal, da večja prodaja grelnikov povzroči padec temperature, kar seveda ni smiselno.Zato se pri izvajanju korelacijske analize v Excelu zavedajte, katere podatke posredujete.

    Poleg tega je Pearsonova korelacija zelo občutljiva na odkloni Če imate eno ali več podatkovnih točk, ki se močno razlikujejo od preostalih podatkov, lahko dobite izkrivljeno sliko odnosa med spremenljivkami. V tem primeru bi bilo pametno namesto tega uporabiti Spearmanovo korelacijo ranga.

    Če si želite podrobneje ogledati primere, obravnavane v tem učbeniku, si lahko spodaj prenesete naš vzorčni delovni zvezek. Zahvaljujem se vam za branje in upam, da se naslednji teden vidimo na našem blogu!

    Delovni zvezek za prakso

    Izračun korelacije v Excelu (.xlsx datoteka)

    Michael Brown je predan tehnološki navdušenec s strastjo do poenostavljanja kompleksnih procesov z uporabo programskih orodij. Z več kot desetletnimi izkušnjami v tehnološki industriji je svoje veščine izpopolnil v Microsoft Excelu in Outlooku ter Google Preglednicah in Dokumentih. Michaelov blog je namenjen deljenju svojega znanja in strokovnega znanja z drugimi ter ponuja preproste nasvete in vadnice za izboljšanje produktivnosti in učinkovitosti. Ne glede na to, ali ste izkušen strokovnjak ali začetnik, Michaelov blog ponuja dragocene vpoglede in praktične nasvete, kako kar najbolje izkoristiti ta osnovna programska orodja.