Obsah
Výukový program vysvětluje základy korelace v aplikaci Excel, ukazuje, jak vypočítat korelační koeficient, sestavit korelační matici a interpretovat výsledky.
Jedním z nejjednodušších statistických výpočtů, které můžete v aplikaci Excel provádět, je korelace. Ačkoli je jednoduchá, je velmi užitečná pro pochopení vztahů mezi dvěma nebo více proměnnými. Aplikace Microsoft Excel poskytuje všechny potřebné nástroje pro provádění korelační analýzy, stačí jen vědět, jak je používat.
Korelace v aplikaci Excel - základy
Korelace je míra, která popisuje sílu a směr vztahu mezi dvěma proměnnými. Běžně se používá ve statistice, ekonomii a společenských vědách pro rozpočty, obchodní plány apod.
Metoda, která se používá ke zkoumání těsného vztahu mezi proměnnými, se nazývá korelační analýza .
Zde je několik příkladů silné korelace:
- Počet kalorií, které sníte, a vaše hmotnost (pozitivní korelace).
- Venkovní teplota a vaše účty za vytápění (negativní korelace)
A zde jsou příklady údajů, které mají slabou nebo žádnou korelaci:
- Jméno vaší kočky a její oblíbené krmivo
- Barva vašich očí a vaše výška
Podstatné je pochopit, že korelace pouze ukazuje, jak úzce spolu dvě proměnné souvisejí. Korelace však neznamená příčinnou souvislost. Skutečnost, že změny jedné proměnné souvisejí se změnami druhé proměnné, neznamená, že jedna proměnná skutečně způsobuje změnu druhé.
Pokud máte zájem zjistit příčinnou souvislost a provádět předpovědi, udělejte krok vpřed a proveďte lineární regresní analýzu.
Korelační koeficient v aplikaci Excel - interpretace korelace
Číselná míra míry asociace mezi dvěma spojitými proměnnými se nazývá koeficient. korelační koeficient (r).
Hodnota koeficientu je vždy v rozmezí -1 až 1 a měří sílu i směr lineárního vztahu mezi proměnnými.
Síla
Čím větší je absolutní hodnota koeficientu, tím silnější je vztah:
- Krajní hodnoty -1 a 1 znamenají dokonalý lineární vztah, kdy všechny datové body leží na přímce. V praxi se dokonalá korelace, ať už kladná nebo záporná, vyskytuje jen zřídka.
- Koeficient 0 znamená, že mezi proměnnými není lineární vztah. To je to, co pravděpodobně dostanete u dvou sad náhodných čísel.
- Hodnoty mezi 0 a +1/-1 představují stupnici slabých, středních a silných vztahů. Jako r se blíží hodnotě -1 nebo 1, síla vztahu se zvyšuje.
Směr
Znaménko koeficientu (plus nebo minus) udává směr vztahu.
- Pozitivní koeficienty představují přímou korelaci a vytvářejí vzestupný sklon grafu - s růstem jedné proměnné roste i druhá a naopak.
- Negativní koeficienty představují inverzní korelaci a vytvářejí na grafu klesající sklon - s růstem jedné proměnné má druhá proměnná tendenci klesat.
Pro lepší pochopení se podívejte na následující korelační grafy:
- Koeficient 1 znamená dokonalý pozitivní vztah - s růstem jedné proměnné se úměrně zvyšuje i druhá.
- Koeficient -1 znamená dokonalý záporný vztah - s růstem jedné proměnné se druhá úměrně snižuje.
- Koeficient 0 znamená, že mezi dvěma proměnnými není žádný vztah - datové body jsou rozptýleny po celém grafu.
Pearsonova korelace
Ve statistice se měří několik typů korelace v závislosti na typu dat, se kterými pracujete. V tomto kurzu se zaměříme na tu nejběžnější.
Pearsonova korelace , celý název je Pearsonův korelační součin (PPMC), se používá k hodnocení lineární vztahy mezi daty, kdy změna jedné proměnné je spojena s proporcionální změnou druhé proměnné. Zjednodušeně řečeno, Pearsonova korelace odpovídá na otázku: Lze data znázornit na přímce?
Ve statistice se jedná o nejoblíbenější typ korelace, a pokud máte co do činění s "korelačním koeficientem" bez dalšího upřesnění, s největší pravděpodobností se jedná o Pearsonův.
Zde je nejčastěji používaný vzorec pro zjištění Pearsonova korelačního koeficientu, který se také nazývá Pearsonovo R :
Někdy se můžete setkat se dvěma dalšími vzorci pro výpočet výběrový korelační koeficient (r) a populační korelační koeficient (ρ).
Jak provést Pearsonovu korelaci v aplikaci Excel
Ruční výpočet Pearsonova korelačního koeficientu vyžaduje poměrně hodně matematiky. Naštěstí aplikace Microsoft Excel vše velmi zjednodušila. V závislosti na souboru dat a cíli můžete použít jednu z následujících technik:
- Zjistěte Pearsonův korelační koeficient pomocí funkce CORREL.
- Vytvořte korelační matici provedením analýzy dat.
- Zjistěte násobné korelační koeficienty pomocí vzorce.
- Sestavte korelační graf, abyste získali vizuální znázornění vztahu mezi daty.
Jak vypočítat korelační koeficient v aplikaci Excel
Chcete-li korelační koeficient vypočítat ručně, museli byste použít tento zdlouhavý vzorec. Chcete-li korelační koeficient zjistit v aplikaci Excel, využijte funkci CORREL nebo PEARSON a výsledek získáte během zlomku sekundy.
Funkce Excel CORREL
Funkce CORREL vrací Pearsonův korelační koeficient pro dva soubory hodnot. Její syntaxe je velmi jednoduchá a přímočará:
CORREL(pole1, pole2)Kde:
- Pole1 je první rozsah hodnot.
- Pole2 je druhý rozsah hodnot.
Obě pole by měla mít stejnou délku.
Za předpokladu, že máme soubor nezávislých proměnných ( x ) v B2:B13 a závislé proměnné (y) v C2:C13, náš vzorec korelačního koeficientu je následující:
=CORREL(B2:B13, C2:C13)
Nebo bychom mohli rozsahy prohodit a získat stejný výsledek:
=CORREL(C2:C13, B2:B13)
V každém případě vzorec ukazuje silnou negativní korelaci (přibližně -0,97) mezi průměrnou měsíční teplotou a počtem prodaných ohřívačů:
3 věci, které byste měli vědět o funkci CORREL v aplikaci Excel
Chcete-li úspěšně vypočítat korelační koeficient v aplikaci Excel, mějte na paměti tyto tři jednoduché skutečnosti:
- Pokud jedna nebo více buněk v poli obsahuje text, logické hodnoty nebo prázdná místa, jsou tyto buňky ignorovány; buňky s nulovými hodnotami se vypočítají.
- Pokud mají zadaná pole různou délku, je vrácena chyba #N/A.
- Pokud je některé z polí prázdné nebo pokud je směrodatná odchylka jejich hodnot rovna nule, dojde k chybě #DIV/0!.
Funkce Excel PEARSON
Funkce PEARSON v aplikaci Excel dělá totéž - vypočítá Pearsonův koeficient korelace Product Moment.
PEARSON(pole1, pole2)Kde:
- Pole1 je rozsah nezávislých hodnot.
- Pole2 je rozsah závislých hodnot.
Protože programy PEARSON a CORREL počítají Pearsonův lineární korelační koeficient, měly by se jejich výsledky shodovat, což se v posledních verzích aplikace Excel 2007 až 2019 zpravidla děje.
V aplikaci Excel 2003 a starších verzích však může funkce PEARSON vykazovat některé chyby při zaokrouhlování. Proto se ve starších verzích doporučuje používat raději funkci CORREL než PEARSON.
Na našem vzorku dat vykazují obě funkce stejné výsledky:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Jak vytvořit korelační matici v aplikaci Excel pomocí analýzy dat
Pokud potřebujete testovat vzájemné vztahy mezi více než dvěma proměnnými, má smysl sestavit korelační matici, která se někdy nazývá korelační matice. koeficient mnohonásobné korelace .
Na stránkách korelační matice je tabulka, která zobrazuje korelační koeficienty mezi proměnnými v průsečíku příslušných řádků a sloupců.
Korelační matice v aplikaci Excel je sestavena pomocí příkazu Korelace nástroj z Analýza ToolPak Tento doplněk je k dispozici ve všech verzích aplikace Excel 2003 až Excel 2019, ale ve výchozím nastavení není povolen. Pokud jste jej dosud neaktivovali, učiňte tak nyní podle postupu popsaného v části Jak povolit nástroj Data Analysis ToolPak v aplikaci Excel.
Po přidání nástrojů Analýza dat na lištu aplikace Excel jste připraveni provádět korelační analýzu:
- V pravém horním rohu Data karta> Analýza klikněte na skupinu Analýza dat tlačítko.
- V Analýza dat dialogového okna vyberte možnost Korelace a klikněte na tlačítko OK.
- V Korelace nakonfigurujte parametry tímto způsobem:
- Klikněte na Vstupní rozsah a vyberte rozsah se zdrojovými daty včetně záhlaví sloupců (v našem případě B1:D13).
- V Seskupeno podle ujistěte se, že Sloupce je zaškrtnuto přepínač (vzhledem k tomu, že vaše zdrojová data jsou seskupena do sloupců).
- Vyberte Štítky v prvním řádku zaškrtněte políčko, pokud vybraný rozsah obsahuje záhlaví sloupců.
- Vyberte požadovanou možnost výstupu. Chcete-li mít matici na stejném listu, vyberte možnost Výstupní rozsah a zadejte odkaz na nejlevější buňku, do které má být matice vypsána (v tomto příkladu A15).
Po dokončení klikněte na tlačítko OK tlačítko:
Vaše matice korelačních koeficientů je hotová a měla by vypadat tak, jak je uvedeno v následující části.
Interpretace výsledků korelační analýzy
V korelační matici aplikace Excel můžete najít koeficienty v průsečíku řádků a sloupců. Pokud jsou souřadnice sloupce a řádku stejné, je vypsána hodnota 1.
Ve výše uvedeném příkladu nás zajímá korelace mezi závislou proměnnou (počet prodaných ohřívačů) a dvěma nezávislými proměnnými (průměrná měsíční teplota a náklady na reklamu). Podíváme se tedy pouze na čísla v průsečíku těchto řádků a sloupců, která jsou zvýrazněna na obrázku níže:
Záporný koeficient -0,97 (zaokrouhleno na 2 desetinná místa) ukazuje silnou inverzní korelaci mezi měsíční teplotou a prodejem topných těles - s rostoucí teplotou se prodává méně topných těles.
Kladný koeficient 0,97 (zaokrouhleno na 2 desetinná místa) ukazuje na silnou přímou souvislost mezi rozpočtem na reklamu a tržbami - čím více peněz na reklamu vydáte, tím vyšší jsou tržby.
Jak provést vícenásobnou korelační analýzu v aplikaci Excel pomocí vzorců
Sestavení korelační tabulky pomocí nástroje Analýza dat je snadné. Tato matice je však statická, což znamená, že při každé změně zdrojových dat budete muset korelační analýzu provést znovu.
Dobrou zprávou je, že podobnou korelační tabulku si můžete snadno sestavit sami a tato matice se bude automaticky aktualizovat při každé změně zdrojových hodnot.
Chcete-li to provést, použijte tento obecný vzorec:
CORREL(OFFSET( first_variable_range , 0, ŘÁDKY($1:1)-1), OFFSET( first_variable_range , 0, SLOUPCE($A:A)-1))Důležitá poznámka! Aby vzorec fungoval, měli byste první rozsah proměnných uzamknout pomocí absolutních odkazů na buňky.
V našem případě je rozsah první proměnné $B$2:$B$13 (všimněte si prosím znaménka $, které blokuje odkaz) a náš korelační vzorec má tento tvar:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Když máme vzorec připraven, sestrojíme korelační matici:
- Do prvního řádku a prvního sloupce matice napište popisky proměnných ve stejném pořadí, v jakém jsou uvedeny ve zdrojové tabulce (viz obrázek níže).
- Do nejlevější buňky (v našem případě B16) vložte výše uvedený vzorec.
- Přetažením vzorce dolů a doprava jej zkopírujte do tolika řádků a sloupců, kolik potřebujete (v našem příkladu 3 řádky a 3 sloupce).
Výsledkem je následující matice s vícenásobnými korelačními koeficienty. Všimněte si, že koeficienty vrácené naším vzorcem jsou přesně stejné jako koeficienty vypsané programem Excel v předchozím příkladu (příslušné jsou zvýrazněny):
Jak tento vzorec funguje
Jak již víte, funkce CORREL aplikace Excel vrací korelační koeficient pro dvě zadané sady proměnných. Hlavním úkolem je dodat příslušné rozsahy v příslušných buňkách matice. Za tímto účelem zadáte do vzorce pouze první rozsah proměnných a pomocí následujících funkcí provedete potřebné úpravy:
- OFFSET - vrátí rozsah, který je o daný počet řádků a sloupců vzdálen od zadaného rozsahu.
- ROWS a COLUMNS - vracejí počet řádků, respektive sloupců v rozsahu. V našem korelačním vzorci jsou oba použity s jediným cílem - získat počet sloupců, které mají být odsazeny od počátečního rozsahu. A toho je dosaženo chytrým použitím absolutních a relativních odkazů.
Pro lepší pochopení logiky se podívejme, jak vzorec vypočítá koeficienty zvýrazněné na výše uvedeném obrázku.
Nejprve prozkoumejme vzorec v B18, který zjišťuje korelaci mezi měsíční teplotou (B2:B13) a prodanými ohřívači (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
V první funkci OFFSET se ROWS($1:1) transformovalo na ROWS($1:3), protože druhá souřadnice je relativní, takže se mění na základě relativní pozice řádku, do kterého se vzorec kopíruje (o 2 řádky níže). ROWS() tedy vrací 3, od kterého odečteme 1 a získáme rozsah, který je o 2 sloupce napravo od zdrojového rozsahu, tedy $D$2:$D$13 (prodej ohřívače).
Druhý OFFSET nemění zadaný rozsah $B$2:$B$13 (teplota), protože COLUMNS($A:A)-1 vrací nulu.
Výsledkem je, že se náš dlouhý vzorec změní na jednoduchý CORREL($D$2:$D$13, $B$2:$B$13) a vrátí přesně požadovaný koeficient.
Podobně funguje vzorec v položce C18, který počítá korelační koeficient pro náklady na reklamu (C2:C13) a tržby (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
První funkce OFFSET je naprosto stejná, jak je popsáno výše, vrací rozsah $D$2:$D$13 (prodej ohřívače).
Ve druhém OFFSETu se COLUMNS($A:A)-1 změní na COLUMNS($A:B)-1, protože jsme vzorec zkopírovali o 1 sloupec doprava. V důsledku toho OFFSET získá rozsah, který je o 1 sloupec napravo od zdrojového rozsahu, tj. $C$2:$C$13 (náklady na reklamu).
Jak vykreslit korelační graf v aplikaci Excel
Při korelaci v aplikaci Excel je nejlepším způsobem, jak vizuálně znázornit vztahy mezi daty, nakreslit grafy. graf rozptylu s trendline Jak na to:
- Vyberte dva sloupce s číselnými údaji, včetně záhlaví sloupců. Pořadí sloupců je důležité: sloupec nezávislé proměnná by měla být v levém sloupci, protože tento sloupec bude vynesen na osu x; proměnná závislé proměnná by měla být v pravém sloupci, protože bude vynesena na osu y.
- Na Vložka na kartě Chaty klikněte na skupinu Rozptyl Ikona grafu. Tím se do pracovního listu okamžitě vloží rozptylový graf XY.
- Klikněte pravým tlačítkem myši na libovolný datový bod v grafu a vyberte možnost Přidat Trendline... z kontextové nabídky.
Podrobné pokyny krok za krokem naleznete na adrese:
- Jak vytvořit graf rozptylu v aplikaci Excel
- Jak přidat trendovou čáru do grafu aplikace Excel
Pro náš vzorový soubor dat vypadají korelační grafy tak, jak je znázorněno na obrázku níže. Navíc jsme zobrazovali hodnotu R-squared, tzv. Koeficient determinace Tato hodnota udává, jak dobře trendová čára odpovídá datům - čím blíže je R2 k 1, tím lépe odpovídá.
Z hodnoty R2 zobrazené na grafu rozptylu můžete snadno vypočítat korelační koeficient:
- Chcete-li dosáhnout větší přesnosti, nastavte v aplikaci Excel, aby se v hodnotě R-squared zobrazovalo více číslic, než je výchozí hodnota.
- Klikněte na hodnotu R2 v grafu, vyberte ji myší a stisknutím klávesové zkratky Ctrl + C ji zkopírujte.
- Druhou odmocninu R2 získáte buď pomocí funkce SQRT, nebo zvýšením zkopírované hodnoty R2 na mocninu 0,5.
Například hodnota R2 ve druhém grafu je 0,9174339392. Můžete tedy zjistit korelační koeficient pro Reklama a Prodaná topná tělesa pomocí jednoho z těchto vzorců:
=SQRT(0,9174339392)
=0.9174339392^0.5
Jak se můžete přesvědčit, takto vypočtené koeficienty jsou v naprostém souladu s korelačními koeficienty zjištěnými v předchozích příkladech, kromě nápisu :
Potenciální problémy s korelací v aplikaci Excel
Na stránkách Pearsonův korelační součin odhaluje pouze lineární vztah mezi oběma proměnnými. To znamená, že vaše proměnné mohou být silně propojeny jiným, křivočarým způsobem, a přesto se korelační koeficient rovná nule nebo se jí blíží.
Pearsonova korelace není schopna rozlišit závislé a nezávislé Například při použití funkce CORREL k nalezení souvislosti mezi průměrnou měsíční teplotou a počtem prodaných ohřívačů jsme dostali koeficient -0,97, což značí vysokou zápornou korelaci. Proměnné však můžeme zaměnit a dostaneme stejný výsledek. Někdo tedy může dojít k závěru, že vyšší prodej ohřívačů způsobuje pokles teploty, což samozřejmě nedává žádný smysl.Proto si při provádění korelační analýzy v Excelu uvědomte, jaká data poskytujete.
Kromě toho je Pearsonova korelace velmi citlivá na odlehlé hodnoty . Pokud máte jeden nebo více datových bodů, které se výrazně liší od zbytku dat, můžete získat zkreslený obraz vztahu mezi proměnnými. V takovém případě by bylo rozumné použít místo toho Spearmanovu korelaci pořadí.
Takto se provádí korelace v aplikaci Excel. Chcete-li se blíže seznámit s příklady probíranými v tomto tutoriálu, můžete si stáhnout náš ukázkový sešit níže. Děkuji vám za přečtení a doufám, že se příští týden uvidíme na našem blogu!
Cvičebnice
Výpočet korelace v aplikaci Excel (.xlsx soubor)