Korreláció Excelben: együttható, mátrix és grafikon

  • Ossza Meg Ezt
Michael Brown

A bemutató elmagyarázza a korreláció alapjait az Excelben, megmutatja, hogyan kell kiszámítani a korrelációs együtthatót, korrelációs mátrixot készíteni és értelmezni az eredményeket.

Az egyik legegyszerűbb statisztikai számítás, amelyet az Excelben elvégezhet, a korreláció. Bár egyszerű, nagyon hasznos a két vagy több változó közötti kapcsolatok megértésében. A Microsoft Excel minden szükséges eszközt biztosít a korrelációelemzés futtatásához, csak tudnia kell, hogyan kell használni őket.

    Korreláció Excelben - az alapok

    Korreláció olyan mérőszám, amely két változó közötti kapcsolat erősségét és irányát írja le. Általában a statisztikában, a közgazdaságtanban és a társadalomtudományokban használják költségvetések, üzleti tervek és hasonlók készítéséhez.

    Azt a módszert, amellyel azt vizsgálják, hogy a változók milyen szoros kapcsolatban állnak egymással, úgy hívják, hogy korrelációelemzés .

    Íme néhány példa az erős korrelációra:

    • Az elfogyasztott kalóriák száma és a testsúly (pozitív korreláció)
    • A külső hőmérséklet és a fűtésszámlák (negatív korreláció)

    És itt vannak a gyenge vagy semmilyen korrelációval nem rendelkező adatok példái:

    • A macska neve és kedvenc eledele
    • A szemed színe és a magasságod

    A korrelációval kapcsolatban lényeges dolog, hogy az csak azt mutatja meg, hogy két változó milyen szoros kapcsolatban áll egymással. A korreláció azonban nem jelent ok-okozati összefüggést. Az a tény, hogy az egyik változó változása összefügg a másik változó változásával, nem jelenti azt, hogy az egyik változó valóban okozza a másik változó változását.

    Ha az ok-okozati összefüggések megismerése és előrejelzések készítése érdekli, tegyen egy lépést előre, és végezzen lineáris regressziós elemzést.

    Korrelációs együttható Excelben - a korreláció értelmezése

    A két folytonos változó közötti kapcsolat mértékének numerikus mértékét nevezzük a korrelációs együttható (r).

    Az együttható értéke mindig -1 és 1 között van, és a változók közötti lineáris kapcsolat erősségét és irányát is méri.

    Erősség

    Minél nagyobb az együttható abszolút értéke, annál erősebb a kapcsolat:

    • A -1 és 1 szélsőértékek tökéletes lineáris kapcsolatot jeleznek, amikor az összes adatpont egy vonalra esik. A gyakorlatban ritkán figyelhető meg tökéletes korreláció, akár pozitív, akár negatív.
    • A 0 együttható azt jelzi, hogy nincs lineáris kapcsolat a változók között. Ezt a kapcsolatot valószínűleg két véletlen számsorozat esetén kapja.
    • A 0 és +1/-1 közötti értékek a gyenge, közepes és erős kapcsolatok skáláját jelentik. Mivel r a -1 vagy az 1 értékhez közelít, a kapcsolat erőssége növekszik.

    Irány

    Az együttható előjele (plusz vagy mínusz) a kapcsolat irányát jelzi.

    • Pozitív az együtthatók közvetlen korrelációt jelentenek, és egy grafikonon felfelé irányuló meredekséget eredményeznek - ahogy az egyik változó növekszik, úgy növekszik a másik is, és fordítva.
    • Negatív az együtthatók fordított korrelációt jelentenek, és a grafikonon lefelé irányuló meredekséget eredményeznek - ahogy az egyik változó növekszik, a másik változó tendenciaszerűen csökken.

    A jobb megértés érdekében kérjük, tekintse meg az alábbi korrelációs grafikonokat:

    • Az együttható 1 tökéletes pozitív kapcsolatot jelent - az egyik változó növekedésével arányosan nő a másik is.
    • Az együttható -1 tökéletes negatív kapcsolatot jelent - ahogy az egyik változó nő, a másik arányosan csökken.
    • Az együttható 0 azt jelenti, hogy nincs kapcsolat két változó között - az adatpontok szétszóródnak a grafikonon.

    Pearson korreláció

    A statisztikában többféle korrelációt mérnek, attól függően, hogy milyen típusú adatokkal dolgozol. Ebben a bemutatóban a leggyakoribbra koncentrálunk.

    Pearson korreláció , a teljes név a Pearson Product Moment korreláció (PPMC), a következők értékelésére szolgál lineáris az adatok közötti kapcsolatok, amikor az egyik változó változása a másik változó arányos változásával jár. Egyszerűbben fogalmazva, a Pearson-korreláció arra a kérdésre ad választ, hogy az adatok ábrázolhatók-e egy egyenesen?

    A statisztikában ez a legnépszerűbb korrelációs típus, és ha további minősítés nélkül "korrelációs együtthatóval" van dolgunk, akkor valószínűleg a Pearsonról van szó.

    Itt a leggyakrabban használt képlet a Pearson-féle korrelációs együttható meghatározására, más néven Pearson R :

    Időnként két másik képlettel is találkozhatsz, amelyekkel a minta korrelációs együttható (r) és a populációs korrelációs együttható (ρ).

    Hogyan kell elvégezni a Pearson korrelációt Excelben

    A Pearson-féle korrelációs együttható kézzel történő kiszámítása elég sok matematikai feladatot igényel. Szerencsére a Microsoft Excel nagyon leegyszerűsítette a dolgot. Az adathalmazától és a céljától függően szabadon használhatja az alábbi technikák egyikét:

    • Keresse meg a Pearson-féle korrelációs együtthatót a CORREL függvénnyel.
    • Készítsen korrelációs mátrixot az Adatelemzés elvégzésével.
    • Keresse meg a többszörös korrelációs együtthatókat egy képlet segítségével.
    • Rajzoljon korrelációs grafikont az adatok kapcsolatának vizuális ábrázolásához.

    A korrelációs együttható kiszámítása Excelben

    A korrelációs együttható kézzel történő kiszámításához ezt a hosszadalmas képletet kell használnia. A korrelációs együttható Excelben történő kiszámításához használja a CORREL vagy a PEARSON funkciót, és a másodperc tört része alatt megkapja az eredményt.

    Excel CORREL funkció

    A CORREL függvény visszaadja a Pearson-féle korrelációs együtthatót két értékkészletre. Szintaxisa nagyon egyszerű és egyértelmű:

    CORREL(array1, array2)

    Hol:

    • Array1 az első értéktartomány.
    • Array2 a második értéktartomány.

    A két tömbnek azonos hosszúságúnak kell lennie.

    Feltételezve, hogy van egy sor független változó ( x ) a B2:B13-ban és a függő változók (y) a C2:C13-ban, a korrelációs együttható képlete a következő:

    =CORREL(B2:B13, C2:C13)

    Vagy felcserélhetjük a tartományokat, és akkor is ugyanazt az eredményt kapjuk:

    =CORREL(C2:C13, B2:B13)

    Akárhogy is, a képlet erős negatív korrelációt mutat (kb. -0,97) a havi átlaghőmérséklet és az eladott fűtőberendezések száma között:

    3 dolog, amit tudnia kell a CORREL funkcióról az Excelben

    A korrelációs együttható Excelben történő sikeres kiszámításához tartsa szem előtt ezt a 3 egyszerű tényt:

    • Ha egy tömb egy vagy több cellája szöveget, logikai értékeket vagy üreseket tartalmaz, az ilyen cellákat figyelmen kívül hagyja; a nulla értékű cellák kiszámításra kerülnek.
    • Ha a megadott tömbök különböző hosszúságúak, a rendszer #N/A hibaüzenetet küld vissza.
    • Ha valamelyik tömb üres, vagy ha az értékek szórása nulla, akkor #DIV/0! hiba lép fel.

    Excel PEARSON funkció

    Az Excel PEARSON függvénye ugyanezt teszi - kiszámítja a Pearson Product Moment korrelációs együtthatót.

    PEARSON(array1, array2)

    Hol:

    • Array1 független értékek tartománya.
    • Array2 a függő értékek tartománya.

    Mivel a PEARSON és a CORREL egyaránt kiszámítja a Pearson-féle lineáris korrelációs együtthatót, az eredményeiknek meg kell egyezniük, és általában az Excel 2007-től az Excel 2019-ig terjedő legújabb verzióiban meg is egyeznek.

    Az Excel 2003 és korábbi verziókban azonban a PEARSON funkció kerekítési hibákat mutathat, ezért a régebbi verziókban a CORREL funkció használata ajánlott a PEARSON helyett.

    A mintánkban szereplő adathalmazon mindkét függvény ugyanazokat az eredményeket mutatja:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Hogyan készítsünk korrelációs mátrixot Excelben az adatelemzéssel

    Ha kettőnél több változó közötti összefüggéseket kell vizsgálni, akkor érdemes korrelációs mátrixot készíteni, amelyet néha úgy hívnak, hogy többszörös korrelációs együttható .

    A korrelációs mátrix egy táblázat, amely a megfelelő sorok és oszlopok metszéspontjában lévő változók közötti korrelációs együtthatókat mutatja.

    Az Excelben a korrelációs mátrixot az alábbi módszerrel állítjuk össze Korreláció eszköz a Elemzési eszközcsomag Ez a bővítmény az Excel 2003-tól az Excel 2019-ig minden Excel-verzióban elérhető, de alapértelmezés szerint nincs engedélyezve. Ha még nem aktiválta, akkor ezt most tegye meg a Hogyan engedélyezzük az adatelemzési eszközcsomagot az Excelben című fejezetben leírt lépésekkel.

    Az Excel szalaghoz hozzáadott adatelemző eszközökkel készen áll a korrelációelemzés futtatására:

    1. A jobb felső sarokban a Adatok tab> Elemzés csoport, kattintson a Adatelemzés gomb.
    2. A Adatelemzés párbeszédpanelen válassza a Korreláció és kattintson az OK gombra.
    3. A Korreláció dobozban a paramétereket így konfigurálja:
      • Kattintson a Bemeneti tartomány mezőt, és válassza ki a forrásadatokat tartalmazó tartományt, beleértve az oszlopfejléceket is (esetünkben B1:D13).
      • A Csoportosítva szakasz, győződjön meg róla, hogy a Oszlopok rádiómező be van jelölve (mivel a forrásadatok oszlopokba vannak csoportosítva).
      • Válassza ki a Címkék az első sorban jelölőnégyzet, ha a kiválasztott tartomány oszlopfejléceket tartalmaz.
      • Válassza ki a kívánt kimeneti opciót. Ha a mátrixot ugyanazon a lapon szeretné megjeleníteni, válassza a Kimeneti tartomány és adja meg a hivatkozást arra a bal szélső cellára, amelybe a mátrixot ki kell adni (ebben a példában A15).

    Ha kész, kattintson a OK gomb:

    A korrelációs együtthatók mátrixa elkészült, és a következő szakaszban látható módon kell kinéznie.

    A korrelációelemzés eredményeinek értelmezése

    Az Excel korrelációs mátrixában a sorok és oszlopok metszéspontjában lévő együtthatókat találja meg. Ha az oszlop és a sor koordinátái megegyeznek, akkor az 1 értéket adja ki.

    A fenti példában a függő változó (az eladott fűtőberendezések száma) és két független változó (a havi átlaghőmérséklet és a reklámköltségek) közötti összefüggés érdekel bennünket. Ezért csak a sorok és oszlopok metszéspontjában lévő számokat nézzük, amelyek az alábbi képernyőképen ki vannak emelve:

    A -0,97-es negatív együttható (2 tizedesjegyre kerekítve) erős fordított korrelációt mutat a havi hőmérséklet és a fűtőberendezések értékesítése között - ahogy a hőmérséklet emelkedik, úgy kevesebb fűtőberendezést adnak el.

    A 0,97-es pozitív együttható (2 tizedesjegyre kerekítve) erős közvetlen kapcsolatot jelez a reklámköltségvetés és az értékesítés között - minél több pénzt költünk reklámra, annál nagyobb az értékesítés.

    Hogyan végezzen többszörös korrelációs elemzést Excelben képletekkel

    A korrelációs táblázat elkészítése az Adatelemzés eszközzel egyszerű. Ez a mátrix azonban statikus, ami azt jelenti, hogy a korrelációs elemzést minden alkalommal újra kell futtatnia, amikor a forrásadatok változnak.

    A jó hír az, hogy könnyen létrehozhat egy hasonló korrelációs táblázatot, és ez a mátrix automatikusan frissül a forrásértékek minden egyes változásával.

    Ehhez használja ezt az általános képletet:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, OSZLOPOK($A:A)-1)))

    Fontos megjegyzés! Ahhoz, hogy a képlet működjön, az első változótartományt abszolút cellahivatkozásokkal kell lezárni.

    Esetünkben az első változó tartománya $B$2:$B$13 (kérjük, vegye figyelembe a $ jelet, amely lezárja a hivatkozást), és a korrelációs képletünk a következő alakot veszi fel:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))

    A képlet elkészültével építsük fel a korrelációs mátrixot:

    1. A mátrix első sorába és első oszlopába írja be a változók címkéit ugyanabban a sorrendben, ahogyan azok a forrástáblában szerepelnek (lásd az alábbi képernyőképet).
    2. Írja be a fenti képletet a bal szélső cellába (esetünkben B16).
    3. Húzza a képletet lefelé és jobbra, hogy annyi sorba és oszlopba másolja, ahány sorba és oszlopba szükséges (példánkban 3 sorba és 3 oszlopba).

    Az eredmény a következő mátrix többszörös korrelációs együtthatókkal. Vegye észre, hogy a képletünk által visszaadott együtthatók pontosan ugyanazok, mint az Excel által az előző példában megadottak (a relevánsak ki vannak emelve):

    Hogyan működik ez a képlet

    Mint már tudja, az Excel CORREL függvénye visszaadja a korrelációs együtthatót az Ön által megadott két változókészletre. A fő kihívás az, hogy a mátrix megfelelő celláiban megadjuk a megfelelő tartományokat. Ehhez csak az első változótartományt adja meg a képletben, és a következő függvényekkel elvégezheti a szükséges beállításokat:

    • OFFSET - olyan tartományt ad vissza, amely adott számú sor és oszlop távolságra van a megadott tartománytól.
    • ROWS és COLUMNS - a sorok és oszlopok számát adja vissza egy tartományban. A mi korrelációs képletünkben mindkettőt egy céllal használjuk - megkapjuk az oszlopok számát a kezdő tartománytól eltolva. Ezt pedig az abszolút és relatív hivatkozások okos használatával érjük el.

    A logika jobb megértéséhez nézzük meg, hogyan számítja ki a képlet a fenti képernyőképen kiemelt együtthatókat.

    Először is vizsgáljuk meg a B18-as képletet, amely összefüggést talál a havi hőmérséklet (B2:B13) és az eladott fűtőberendezések (D2:D13) között:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))

    Az első OFFSET függvényben a ROWS($1:1) átalakult ROWS($1:3)-ra, mert a második koordináta relatív, tehát annak a sornak a relatív pozíciója alapján változik, ahová a képletet másoljuk (2 sorral lejjebb). Így a ROWS() 3-t ad vissza, amiből kivonjuk az 1-et, és egy olyan tartományt kapunk, amely 2 oszloppal jobbra van a forrás tartománytól, azaz $D$2:$D$13 (fűtési eladások).

    A második OFFSET nem változtatja meg a megadott $B$2:$B$13 (hőmérséklet) tartományt, mivel a COLUMNS($A:A)-1 nulla értéket ad vissza.

    Ennek eredményeként a hosszú képletünk egyszerű CORREL($D$2:$D$13, $B$2:$B$13) formulává alakul, és pontosan a kívánt együtthatót adja vissza.

    A C18-ban található képlet, amely a reklámköltségek (C2:C13) és az eladások (D2:D13) korrelációs együtthatóját számítja ki, hasonló módon működik:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1)))

    Az első OFFSET függvény teljesen megegyezik a fent leírtakkal, és a $D$2:$D$13 tartományt adja vissza (fűtési eladások).

    A második OFFSET-ben a COLUMNS($A:A)-1 COLUMNS($A:B)-1-re változik, mivel a képletet 1 oszlopot jobbra másoltuk. Következésképpen az OFFSET egy olyan tartományt kap, amely 1 oszloppal jobbra van a forrás tartománytól, azaz $C$2:$C$13 (reklámköltség).

    Hogyan készítsünk korrelációs grafikont az Excelben

    Ha korrelációt végez az Excelben, az adatok közötti kapcsolatok vizuális megjelenítésének legjobb módja az, hogy rajzol egy szórásdiagram egy trendvonal Íme, hogyan:

    1. Válasszon ki két numerikus adatokat tartalmazó oszlopot, beleértve az oszlopfejléceket is. Az oszlopok sorrendje fontos: a független változónak a bal oldali oszlopban kell lennie, mivel ezt az oszlopot kell ábrázolni az x tengelyen; a függő változónak a jobb oldali oszlopban kell lennie, mivel az y tengelyen lesz ábrázolva.
    2. A Beépített lapon, a Beszélgetések csoport, kattintson a Scatter Ez azonnal beilleszt egy XY szórásdiagramot a munkalapba.
    3. Kattintson a jobb gombbal a diagram bármelyik adatpontjára, és válassza a Trendvonal hozzáadása... a kontextusmenüből.

    A részletes, lépésről-lépésre történő útmutatót lásd:

    • Hogyan hozzon létre szórásdiagramot az Excelben
    • Hogyan adjunk trendvonalat az Excel diagramhoz

    A mintaadathalmazunk esetében a korrelációs grafikonok az alábbi képen látható módon néznek ki. Ezen kívül megjelenítettük az R-négyzet értéket, más néven a Meghatározási együttható Ez az érték azt jelzi, hogy a trendvonal mennyire felel meg az adatoknak - minél közelebb van az R2 az 1-hez, annál jobb az illeszkedés.

    A szórásdiagramon megjelenített R2 értékből könnyen kiszámíthatja a korrelációs együtthatót:

    1. A nagyobb pontosság érdekében az Excel segítségével az R-négyzet értékében az alapértelmezettnél több számjegyet jeleníthet meg.
    2. Kattintson az R2 értékre a diagramon, jelölje ki az egérrel, majd nyomja meg a Ctrl + C billentyűkombinációt a másoláshoz.
    3. Az R2 négyzetgyökét vagy az SQRT függvény használatával, vagy a másolt R2 érték 0,5 hatványára történő emelésével kapja meg.

    Például a második grafikonon az R2 érték 0,9174339392. Tehát a korrelációs együtthatót a következőkre lehet kiszámítani Reklám és Eladott fűtőtestek az alábbi képletek egyikével:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Mint arról meggyőződhet, az így kiszámított együtthatók tökéletesen megfelelnek az előző példákban talált korrelációs együtthatóknak, kivéve a jelet :

    A korrelációval kapcsolatos lehetséges problémák az Excelben

    A Pearson Product Moment korreláció csak egy lineáris kapcsolat a két változó között. Vagyis a változók erősen összefügghetnek egymással más, görbületi módon, és a korrelációs együttható mégis egyenlő vagy közel nulla.

    A Pearson-féle korreláció nem képes különbséget tenni a következők között függő és független Például, amikor a CORREL függvényt használtuk, hogy megtaláljuk a havi átlaghőmérséklet és az eladott fűtőtestek száma közötti összefüggést, -0,97-es együtthatót kaptunk, ami magas negatív korrelációt jelez. Azonban megcserélhetjük a változókat, és ugyanezt az eredményt kapjuk. Tehát valaki arra a következtetésre juthat, hogy a magasabb fűtőtest-eladások a hőmérséklet csökkenését okozzák, ami nyilvánvalóan nem jelent semmit.Ezért az Excelben végzett korrelációelemzés során ügyeljen arra, hogy milyen adatokat szolgáltat.

    Emellett a Pearson-féle korreláció nagyon érzékeny a következőkre kiugró értékek Ha egy vagy több olyan adatpont van, amely nagymértékben eltér az adatok többi részétől, akkor torz képet kaphat a változók közötti kapcsolatról. Ebben az esetben bölcsen teszi, ha helyette a Spearman-féle rangkorrelációt használja.

    Így végezhetünk korrelációt Excelben. Ha közelebbről is meg szeretné nézni a bemutatóban tárgyalt példákat, szívesen letölti az alábbi minta munkafüzetünket. Köszönöm, hogy elolvasta, és remélem, jövő héten találkozunk a blogunkon!

    Gyakorló munkafüzet

    Korreláció kiszámítása Excelben (.xlsx fájl)

    Michael Brown elkötelezett technológiai rajongó, aki szenvedélyesen egyszerűsíti a bonyolult folyamatokat szoftvereszközök segítségével. A technológiai iparban szerzett több mint egy évtizedes tapasztalatával a Microsoft Excel és az Outlook, valamint a Google Táblázatok és a Dokumentumok területén fejlesztette tudását. Michael blogja célja, hogy megossza tudását és szakértelmét másokkal, könnyen követhető tippeket és oktatóanyagokat adva a termelékenység és a hatékonyság javításához. Akár tapasztalt szakember, akár kezdő, Michael blogja értékes betekintést és gyakorlati tanácsokat kínál, amelyek segítségével a legtöbbet hozhatja ki ezekből az alapvető szoftvereszközökből.