Korelácia v programe Excel: koeficient, matica a graf

  • Zdieľajte To
Michael Brown

V tomto učebnom texte sú vysvetlené základy korelácie v programe Excel, ukázané spôsoby výpočtu korelačného koeficientu, zostavenia korelačnej matice a interpretácie výsledkov.

Jedným z najjednoduchších štatistických výpočtov, ktoré môžete v programe Excel vykonať, je korelácia. Hoci je jednoduchá, je veľmi užitočná na pochopenie vzťahov medzi dvoma alebo viacerými premennými. Microsoft Excel poskytuje všetky potrebné nástroje na vykonanie korelačnej analýzy, stačí len vedieť, ako ich používať.

    Korelácia v programe Excel - základy

    Korelácia je miera, ktorá opisuje silu a smer vzťahu medzi dvoma premennými. Bežne sa používa v štatistike, ekonómii a spoločenských vedách pri rozpočtoch, podnikateľských plánoch a podobne.

    Metóda, ktorá sa používa na skúmanie toho, ako úzko sú premenné prepojené, sa nazýva korelačná analýza .

    Tu je niekoľko príkladov silnej korelácie:

    • Počet prijatých kalórií a vaša hmotnosť (pozitívna korelácia)
    • Vonkajšia teplota a vaše účty za vykurovanie (negatívna korelácia)

    A tu sú príklady údajov, ktoré majú slabú alebo žiadnu koreláciu:

    • meno vašej mačky a jej obľúbené krmivo
    • Farba vašich očí a vaša výška

    Podstatné je pochopiť, že korelácia ukazuje len to, ako úzko spolu dve premenné súvisia. Korelácia však neznamená príčinnú súvislosť. Skutočnosť, že zmeny jednej premennej súvisia so zmenami druhej premennej, neznamená, že jedna premenná skutočne spôsobuje zmenu druhej.

    Ak máte záujem zistiť kauzalitu a robiť predpovede, urobte krok vpred a vykonajte lineárnu regresnú analýzu.

    Korelačný koeficient v programe Excel - interpretácia korelácie

    Číselná miera stupňa asociácie medzi dvoma spojitými premennými sa nazýva korelačný koeficient (r).

    Hodnota koeficientu je vždy medzi -1 a 1 a meria silu aj smer lineárneho vzťahu medzi premennými.

    Sila

    Čím väčšia je absolútna hodnota koeficientu, tým silnejší je vzťah:

    • Krajné hodnoty -1 a 1 znamenajú dokonalý lineárny vzťah, keď všetky body údajov ležia na priamke. V praxi sa dokonalá korelácia, či už kladná alebo záporná, pozoruje len zriedkavo.
    • Koeficient 0 znamená, že medzi premennými nie je lineárny vzťah. Takýto výsledok pravdepodobne dostanete pri dvoch súboroch náhodných čísel.
    • Hodnoty od 0 do +1/-1 predstavujú stupnicu slabých, stredných a silných vzťahov. r sa blíži k hodnote -1 alebo 1, sila vzťahu sa zvyšuje.

    Smer

    Znamienko koeficientu (plus alebo mínus) označuje smer vzťahu.

    • Pozitívne koeficienty predstavujú priamu koreláciu a vytvárajú na grafe stúpajúci sklon - keď sa zvyšuje jedna premenná, zvyšuje sa aj druhá a naopak.
    • Negatívne koeficienty predstavujú inverznú koreláciu a na grafe vytvárajú klesajúci sklon - keď jedna premenná rastie, druhá má tendenciu klesať.

    Pre lepšie pochopenie si pozrite nasledujúce grafy korelácie:

    • Koeficient 1 znamená dokonalý pozitívny vzťah - keď sa zvyšuje jedna premenná, úmerne sa zvyšuje aj druhá.
    • Koeficient -1 znamená dokonalý záporný vzťah - keď sa jedna premenná zvyšuje, druhá úmerne klesá.
    • Koeficient 0 znamená, že medzi dvoma premennými nie je žiadny vzťah - dátové body sú roztrúsené po celom grafe.

    Pearsonova korelácia

    V štatistike sa merajú viaceré typy korelácie v závislosti od typu údajov, s ktorými pracujete. V tomto návode sa zameriame na tú najbežnejšiu.

    Pearsonova korelácia , celý názov je Pearsonova produktová momentová korelácia (PPMC), sa používa na hodnotenie lineárne vzťahy medzi údajmi, keď zmena jednej premennej je spojená s proporcionálnou zmenou druhej premennej. Zjednodušene povedané, Pearsonova korelácia odpovedá na otázku: Dajú sa údaje znázorniť na priamke?

    V štatistike je to najobľúbenejší typ korelácie, a ak máte do činenia s "korelačným koeficientom" bez ďalšej kvalifikácie, s najväčšou pravdepodobnosťou ide o Pearsonov koeficient.

    Tu je najčastejšie používaný vzorec na zistenie Pearsonovho korelačného koeficientu, ktorý sa nazýva aj Pearsonovo R :

    Niekedy sa môžete stretnúť s dvoma ďalšími vzorcami na výpočet vzorka korelačného koeficientu (r) a populačný korelačný koeficient (ρ).

    Ako vykonať Pearsonovu koreláciu v programe Excel

    Ručný výpočet Pearsonovho korelačného koeficientu si vyžaduje pomerne veľa matematiky. Našťastie program Microsoft Excel všetko veľmi zjednodušil. V závislosti od súboru údajov a cieľa môžete použiť jednu z nasledujúcich techník:

    • Nájdite Pearsonov korelačný koeficient pomocou funkcie CORREL.
    • Vytvorte korelačnú maticu vykonaním analýzy údajov.
    • Nájdite viacnásobné korelačné koeficienty pomocou vzorca.
    • Nakreslite korelačný graf, aby ste získali vizuálne znázornenie vzťahu medzi údajmi.

    Ako vypočítať korelačný koeficient v programe Excel

    Ak chcete vypočítať korelačný koeficient ručne, museli by ste použiť tento zdĺhavý vzorec. Ak chcete zistiť korelačný koeficient v programe Excel, využite funkciu CORREL alebo PEARSON a výsledok získate za zlomok sekundy.

    Funkcia Excel CORREL

    Funkcia CORREL vracia Pearsonov korelačný koeficient pre dva súbory hodnôt. Jej syntax je veľmi jednoduchá a prehľadná:

    CORREL(array1, array2)

    Kde:

    • Pole1 je prvý rozsah hodnôt.
    • Pole2 je druhý rozsah hodnôt.

    Obe polia by mali mať rovnakú dĺžku.

    Za predpokladu, že máme súbor nezávislých premenných ( x ) v B2:B13 a závislé premenné (y) v C2:C13, náš vzorec korelačného koeficientu vyzerá takto:

    =CORREL(B2:B13, C2:C13)

    Alebo by sme mohli rozsahy vymeniť a stále by sme dostali rovnaký výsledok:

    =CORREL(C2:C13, B2:B13)

    Tak či onak, vzorec ukazuje silnú negatívnu koreláciu (približne -0,97) medzi priemernou mesačnou teplotou a počtom predaných ohrievačov:

    3 veci, ktoré by ste mali vedieť o funkcii CORREL v programe Excel

    Ak chcete úspešne vypočítať korelačný koeficient v programe Excel, majte na pamäti tieto 3 jednoduché skutočnosti:

    • Ak jedna alebo viac buniek v poli obsahuje text, logické hodnoty alebo prázdne miesta, tieto bunky sa ignorujú; bunky s nulovými hodnotami sa vypočítajú.
    • Ak majú dodané polia rôznu dĺžku, vráti sa chyba #N/A.
    • Ak je jedno z polí prázdne alebo ak sa štandardná odchýlka ich hodnôt rovná nule, nastane chyba #DIV/0!.

    Funkcia Excel PEARSON

    Funkcia PEARSON v programe Excel robí to isté - vypočíta Pearsonov koeficient korelácie Product Moment.

    PEARSON(array1, array2)

    Kde:

    • Pole1 je rozsah nezávislých hodnôt.
    • Pole2 je rozsah závislých hodnôt.

    Keďže programy PEARSON a CORREL počítajú Pearsonov lineárny korelačný koeficient, ich výsledky by sa mali zhodovať a v posledných verziách programov Excel 2007 až Excel 2019 sa zhodujú.

    V programe Excel 2003 a starších verziách však môže funkcia PEARSON vykazovať chyby pri zaokrúhľovaní. Preto sa v starších verziách odporúča používať CORREL namiesto funkcie PEARSON.

    Na našej vzorke údajov vykazujú obe funkcie rovnaké výsledky:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Ako vytvoriť korelačnú maticu v programe Excel pomocou analýzy údajov

    Ak potrebujete testovať vzájomné vzťahy medzi viac ako dvoma premennými, má zmysel zostaviť korelačnú maticu, ktorá sa niekedy nazýva koeficient viacnásobnej korelácie .

    Stránka korelačná matica je tabuľka, ktorá zobrazuje korelačné koeficienty medzi premennými v priesečníku príslušných riadkov a stĺpcov.

    Korelačná matica v programe Excel je vytvorená pomocou Korelácia nástroj z Analýza ToolPak Tento doplnok je k dispozícii vo všetkých verziách programu Excel 2003 až Excel 2019, ale nie je predvolene aktivovaný. Ak ste ho ešte neaktivovali, urobte tak teraz podľa krokov opísaných v časti Ako aktivovať Data Analysis ToolPak v programe Excel.

    Po pridaní nástrojov Analýza údajov na lištu aplikácie Excel ste pripravení na vykonávanie korelačnej analýzy:

    1. V pravom hornom rohu Údaje karta> Analýza kliknite na skupinu Analýza údajov tlačidlo.
    2. V Analýza údajov dialógové okno, vyberte Korelácia a kliknite na tlačidlo OK.
    3. V Korelácia nakonfigurujte parametre týmto spôsobom:
      • Kliknite na Vstupný rozsah a vyberte rozsah so zdrojovými údajmi vrátane hlavičiek stĺpcov (v našom prípade B1:D13).
      • V Zoskupené podľa uistite sa, že Stĺpce je vybraté prepínacie pole (vzhľadom na to, že vaše zdrojové údaje sú zoskupené do stĺpcov).
      • Vyberte Štítky v prvom riadku začiarknite políčko, ak vybraný rozsah obsahuje záhlavia stĺpcov.
      • Vyberte požadovanú možnosť výstupu. Ak chcete mať maticu v tom istom hárku, vyberte Rozsah výstupu a uveďte odkaz na ľavú bunku, do ktorej sa má matica vypísať (v tomto príklade A15).

    Po dokončení kliknite na tlačidlo OK tlačidlo:

    Vaša matica korelačných koeficientov je hotová a mala by vyzerať tak, ako je uvedené v nasledujúcej časti.

    Interpretácia výsledkov korelačnej analýzy

    V korelačnej matici programu Excel môžete nájsť koeficienty v priesečníku riadkov a stĺpcov. Ak sú súradnice stĺpcov a riadkov rovnaké, vypisuje sa hodnota 1.

    V uvedenom príklade nás zaujíma korelácia medzi závislou premennou (počet predaných ohrievačov) a dvoma nezávislými premennými (priemerná mesačná teplota a náklady na reklamu). Preto sa pozrieme len na čísla v priesečníku týchto riadkov a stĺpcov, ktoré sú zvýraznené na snímke nižšie:

    Záporný koeficient -0,97 (zaokrúhlený na 2 desatinné miesta) poukazuje na silnú inverznú koreláciu medzi mesačnou teplotou a predajom ohrievačov - s rastúcou teplotou sa predáva menej ohrievačov.

    Kladný koeficient 0,97 (zaokrúhlený na 2 desatinné miesta) poukazuje na silnú priamu súvislosť medzi rozpočtom na reklamu a predajom - čím viac peňazí vynaložíte na reklamu, tým vyšší je predaj.

    Ako vykonať viacnásobnú korelačnú analýzu v programe Excel pomocou vzorcov

    Vytvorenie korelačnej tabuľky pomocou nástroja na analýzu údajov je jednoduché. Táto matica je však statická, čo znamená, že pri každej zmene zdrojových údajov budete musieť korelačnú analýzu spustiť nanovo.

    Dobrou správou je, že podobnú korelačnú tabuľku si môžete ľahko vytvoriť sami a táto matica sa bude automaticky aktualizovať pri každej zmene zdrojových hodnôt.

    Ak to chcete urobiť, použite tento všeobecný vzorec:

    CORREL(OFFSET( first_variable_range , 0, RIADKY($1:1)-1), OFFSET( first_variable_range , 0, STĹPCE($A:A)-1))

    Dôležitá poznámka! Aby vzorec fungoval, mali by ste prvý rozsah premenných uzamknúť pomocou absolútnych odkazov na bunky.

    V našom prípade je rozsah prvej premennej $B$2:$B$13 (všimnite si prosím znak $, ktorý blokuje odkaz) a náš korelačný vzorec má tento tvar:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Keď máme vzorec pripravený, zostrojme korelačnú maticu:

    1. Do prvého riadku a prvého stĺpca matice napíšte označenia premenných v rovnakom poradí, ako sú uvedené v zdrojovej tabuľke (pozri obrázok nižšie).
    2. Vložte vyššie uvedený vzorec do ľavej bunky (v našom prípade B16).
    3. Ťahaním vzorca nadol a doprava ho skopírujte do toľkých riadkov a stĺpcov, koľko potrebujete (v našom príklade 3 riadky a 3 stĺpce).

    Výsledkom je nasledujúca matica s viacerými korelačnými koeficientmi. Všimnite si, že koeficienty vrátené naším vzorcom sú presne také isté, aké vypisoval Excel v predchádzajúcom príklade (príslušné sú zvýraznené):

    Ako tento vzorec funguje

    Ako už viete, funkcia Excel CORREL vráti korelačný koeficient pre dve sady premenných, ktoré zadáte. Hlavnou úlohou je dodať príslušné rozsahy v príslušných bunkách matice. Na tento účel zadáte do vzorca len prvý rozsah premenných a na vykonanie potrebných úprav použijete nasledujúce funkcie:

    • OFFSET - vráti rozsah, ktorý je daný počet riadkov a stĺpcov od zadaného rozsahu.
    • ROWS a COLUMNS - vracajú počet riadkov, resp. stĺpcov v rozsahu. V našom korelačnom vzorci sa oba používajú s jediným cieľom - získať počet stĺpcov, ktoré sa majú odsadiť od počiatočného rozsahu. A to sa dosiahne šikovným použitím absolútnych a relatívnych odkazov.

    Aby ste lepšie pochopili logiku, pozrime sa, ako vzorec vypočíta koeficienty zvýraznené na obrázku vyššie.

    Najprv preskúmajme vzorec v B18, ktorý zisťuje koreláciu medzi mesačnou teplotou (B2:B13) a predanými ohrievačmi (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    V prvej funkcii OFFSET sa ROWS($1:1) transformovalo na ROWS($1:3), pretože druhá súradnica je relatívna, takže sa mení na základe relatívnej polohy riadku, do ktorého sa vzorec kopíruje (o 2 riadky nižšie). ROWS() teda vráti 3, od ktorého odpočítame 1 a získame rozsah, ktorý je o 2 stĺpce vpravo od zdrojového rozsahu, t. j. $D$2:$D$13 (predaj ohrievača).

    Druhý OFFSET nezmení zadaný rozsah $B$2:$B$13 (teplota), pretože COLUMNS($A:A)-1 vráti nulu.

    Výsledkom je, že náš dlhý vzorec sa zmení na jednoduchý CORREL($D$2:$D$13, $B$2:$B$13) a vráti presne požadovaný koeficient.

    Vzorec v C18, ktorý počíta korelačný koeficient pre náklady na reklamu (C2:C13) a tržby (D2:D13), funguje podobným spôsobom:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Prvá funkcia OFFSET je úplne rovnaká, ako je popísané vyššie, vracia rozsah $D$2:$D$13 (predaj ohrievača).

    V druhom príkaze OFFSET sa COLUMNS($A:A)-1 zmení na COLUMNS($A:B)-1, pretože sme vzorec skopírovali o 1 stĺpec doprava. Následne OFFSET získa rozsah, ktorý je o 1 stĺpec napravo od zdrojového rozsahu, t. j. $C$2:$C$13 (náklady na reklamu).

    Ako vykresliť korelačný graf v programe Excel

    Pri korelácii v programe Excel je najlepším spôsobom, ako vizuálne znázorniť vzťahy medzi údajmi, nakresliť graf rozptylu s trendline Tu je návod, ako na to:

    1. Vyberte dva stĺpce s číselnými údajmi vrátane hlavičiek stĺpcov. Poradie stĺpcov je dôležité: nezávislý premenná by mala byť v ľavom stĺpci, pretože tento stĺpec sa má vykresliť na osi x; premenná závislé premenná by mala byť v pravom stĺpci, pretože bude vynesená na osi y.
    2. Na Vložka na karte Chaty kliknite na skupinu Rozptyl Ikona grafu. Tým sa do pracovného hárka okamžite vloží graf rozptylu XY.
    3. Kliknite pravým tlačidlom myši na ľubovoľný dátový bod v grafe a vyberte Pridať trendovú čiaru... z kontextového menu.

    Podrobné pokyny krok za krokom nájdete na stránke:

    • Ako vytvoriť graf rozptylu v programe Excel
    • Ako pridať trendovú čiaru do grafu programu Excel

    V prípade nášho vzorového súboru údajov vyzerajú grafy korelácie tak, ako je znázornené na obrázku nižšie. Okrem toho sme zobrazili hodnotu R-kvadrát, tzv. Koeficient stanovenia Táto hodnota udáva, ako dobre trendová čiara zodpovedá údajom - čím bližšie je R2 k 1, tým lepšie sa zhoduje.

    Z hodnoty R2 zobrazenej na grafe rozptylu môžete ľahko vypočítať korelačný koeficient:

    1. Ak chcete dosiahnuť vyššiu presnosť, nechajte program Excel zobraziť viac číslic v hodnote R-squared, ako je predvolené.
    2. Kliknite na hodnotu R2 v grafe, vyberte ju myšou a stlačením klávesovej skratky Ctrl + C ju skopírujte.
    3. Získajte druhú odmocninu R2 buď pomocou funkcie SQRT, alebo zvýšením skopírovanej hodnoty R2 na mocninu 0,5.

    Napríklad hodnota R2 v druhom grafe je 0,9174339392. Takže môžete nájsť korelačný koeficient pre Reklama a Predané ohrievače pomocou jedného z týchto vzorcov:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Ako sa môžete presvedčiť, takto vypočítané koeficienty sú v úplnom súlade s korelačnými koeficientmi zistenými v predchádzajúcich príkladoch, okrem znamenia :

    Potenciálne problémy s koreláciou v programe Excel

    Stránka Pearsonova produktová momentová korelácia odhaľuje iba lineárne vzťah medzi dvoma premennými. To znamená, že vaše premenné môžu byť silne prepojené iným, krivočiarym spôsobom, a napriek tomu sa korelačný koeficient rovná nule alebo sa jej blíži.

    Pearsonova korelácia nie je schopná rozlíšiť závislé a nezávislý Napríklad pri použití funkcie CORREL na zistenie súvislosti medzi priemernou mesačnou teplotou a počtom predaných ohrievačov sme dostali koeficient -0,97, čo znamená vysokú zápornú koreláciu. Mohli by ste však premenné zameniť a dostať rovnaký výsledok. Niekto teda môže dospieť k záveru, že vyšší predaj ohrievačov spôsobuje pokles teploty, čo samozrejme nemá žiadny význam.Preto pri vykonávaní korelačnej analýzy v programe Excel dbajte na to, aké údaje poskytujete.

    Okrem toho je Pearsonova korelácia veľmi citlivá na odľahlé hodnoty . Ak máte jeden alebo viac dátových bodov, ktoré sa výrazne líšia od zvyšku údajov, môžete získať skreslený obraz vzťahu medzi premennými. V takom prípade by bolo rozumné použiť namiesto toho Spearmanovu koreláciu hodnôt.

    Takto sa v Exceli robí korelácia. Ak sa chcete bližšie pozrieť na príklady rozoberané v tomto návode, môžete si stiahnuť náš vzorový zošit nižšie. Ďakujem vám za prečítanie a dúfam, že sa na našom blogu uvidíme budúci týždeň!

    Cvičný zošit

    Výpočet korelácie v programe Excel (.xlsx súbor)

    Michael Brown je nadšený technologický nadšenec s vášňou pre zjednodušovanie zložitých procesov pomocou softvérových nástrojov. S viac ako desaťročnými skúsenosťami v technologickom priemysle si zdokonalil svoje zručnosti v programoch Microsoft Excel a Outlook, ako aj Tabuľky Google a Dokumenty. Michaelov blog je venovaný zdieľaniu svojich vedomostí a odborných znalostí s ostatnými a poskytuje jednoduché tipy a návody na zlepšenie produktivity a efektivity. Či už ste skúsený profesionál alebo začiatočník, Michaelov blog ponúka cenné poznatky a praktické rady, ako z týchto základných softvérových nástrojov vyťažiť maximum.