Tartalomjegyzék
A bemutató elmagyarázza a korreláció alapjait az Excelben, megmutatja, hogyan kell kiszámítani a korrelációs együtthatót, korrelációs mátrixot készíteni és értelmezni az eredményeket.
Az egyik legegyszerűbb statisztikai számítás, amelyet az Excelben elvégezhet, a korreláció. Bár egyszerű, nagyon hasznos a két vagy több változó közötti kapcsolatok megértésében. A Microsoft Excel minden szükséges eszközt biztosít a korrelációelemzés futtatásához, csak tudnia kell, hogyan kell használni őket.
Korreláció Excelben - az alapok
Korreláció olyan mérőszám, amely két változó közötti kapcsolat erősségét és irányát írja le. Általában a statisztikában, a közgazdaságtanban és a társadalomtudományokban használják költségvetések, üzleti tervek és hasonlók készítéséhez.
Azt a módszert, amellyel azt vizsgálják, hogy a változók milyen szoros kapcsolatban állnak egymással, úgy hívják, hogy korrelációelemzés .
Íme néhány példa az erős korrelációra:
- Az elfogyasztott kalóriák száma és a testsúly (pozitív korreláció)
- A külső hőmérséklet és a fűtésszámlák (negatív korreláció)
És itt vannak a gyenge vagy semmilyen korrelációval nem rendelkező adatok példái:
- A macska neve és kedvenc eledele
- A szemed színe és a magasságod
A korrelációval kapcsolatban lényeges dolog, hogy az csak azt mutatja meg, hogy két változó milyen szoros kapcsolatban áll egymással. A korreláció azonban nem jelent ok-okozati összefüggést. Az a tény, hogy az egyik változó változása összefügg a másik változó változásával, nem jelenti azt, hogy az egyik változó valóban okozza a másik változó változását.
Ha az ok-okozati összefüggések megismerése és előrejelzések készítése érdekli, tegyen egy lépést előre, és végezzen lineáris regressziós elemzést.
Korrelációs együttható Excelben - a korreláció értelmezése
A két folytonos változó közötti kapcsolat mértékének numerikus mértékét nevezzük a korrelációs együttható (r).
Az együttható értéke mindig -1 és 1 között van, és a változók közötti lineáris kapcsolat erősségét és irányát is méri.
Erősség
Minél nagyobb az együttható abszolút értéke, annál erősebb a kapcsolat:
- A -1 és 1 szélsőértékek tökéletes lineáris kapcsolatot jeleznek, amikor az összes adatpont egy vonalra esik. A gyakorlatban ritkán figyelhető meg tökéletes korreláció, akár pozitív, akár negatív.
- A 0 együttható azt jelzi, hogy nincs lineáris kapcsolat a változók között. Ezt a kapcsolatot valószínűleg két véletlen számsorozat esetén kapja.
- A 0 és +1/-1 közötti értékek a gyenge, közepes és erős kapcsolatok skáláját jelentik. Mivel r a -1 vagy az 1 értékhez közelít, a kapcsolat erőssége növekszik.
Irány
Az együttható előjele (plusz vagy mínusz) a kapcsolat irányát jelzi.
- Pozitív az együtthatók közvetlen korrelációt jelentenek, és egy grafikonon felfelé irányuló meredekséget eredményeznek - ahogy az egyik változó növekszik, úgy növekszik a másik is, és fordítva.
- Negatív az együtthatók fordított korrelációt jelentenek, és a grafikonon lefelé irányuló meredekséget eredményeznek - ahogy az egyik változó növekszik, a másik változó tendenciaszerűen csökken.
A jobb megértés érdekében kérjük, tekintse meg az alábbi korrelációs grafikonokat:
- Az együttható 1 tökéletes pozitív kapcsolatot jelent - az egyik változó növekedésével arányosan nő a másik is.
- Az együttható -1 tökéletes negatív kapcsolatot jelent - ahogy az egyik változó nő, a másik arányosan csökken.
- Az együttható 0 azt jelenti, hogy nincs kapcsolat két változó között - az adatpontok szétszóródnak a grafikonon.
Pearson korreláció
A statisztikában többféle korrelációt mérnek, attól függően, hogy milyen típusú adatokkal dolgozol. Ebben a bemutatóban a leggyakoribbra koncentrálunk.
Pearson korreláció , a teljes név a Pearson Product Moment korreláció (PPMC), a következők értékelésére szolgál lineáris az adatok közötti kapcsolatok, amikor az egyik változó változása a másik változó arányos változásával jár. Egyszerűbben fogalmazva, a Pearson-korreláció arra a kérdésre ad választ, hogy az adatok ábrázolhatók-e egy egyenesen?
A statisztikában ez a legnépszerűbb korrelációs típus, és ha további minősítés nélkül "korrelációs együtthatóval" van dolgunk, akkor valószínűleg a Pearsonról van szó.
Itt a leggyakrabban használt képlet a Pearson-féle korrelációs együttható meghatározására, más néven Pearson R :
Időnként két másik képlettel is találkozhatsz, amelyekkel a minta korrelációs együttható (r) és a populációs korrelációs együttható (ρ).
Hogyan kell elvégezni a Pearson korrelációt Excelben
A Pearson-féle korrelációs együttható kézzel történő kiszámítása elég sok matematikai feladatot igényel. Szerencsére a Microsoft Excel nagyon leegyszerűsítette a dolgot. Az adathalmazától és a céljától függően szabadon használhatja az alábbi technikák egyikét:
- Keresse meg a Pearson-féle korrelációs együtthatót a CORREL függvénnyel.
- Készítsen korrelációs mátrixot az Adatelemzés elvégzésével.
- Keresse meg a többszörös korrelációs együtthatókat egy képlet segítségével.
- Rajzoljon korrelációs grafikont az adatok kapcsolatának vizuális ábrázolásához.
A korrelációs együttható kiszámítása Excelben
A korrelációs együttható kézzel történő kiszámításához ezt a hosszadalmas képletet kell használnia. A korrelációs együttható Excelben történő kiszámításához használja a CORREL vagy a PEARSON funkciót, és a másodperc tört része alatt megkapja az eredményt.
Excel CORREL funkció
A CORREL függvény visszaadja a Pearson-féle korrelációs együtthatót két értékkészletre. Szintaxisa nagyon egyszerű és egyértelmű:
CORREL(array1, array2)Hol:
- Array1 az első értéktartomány.
- Array2 a második értéktartomány.
A két tömbnek azonos hosszúságúnak kell lennie.
Feltételezve, hogy van egy sor független változó ( x ) a B2:B13-ban és a függő változók (y) a C2:C13-ban, a korrelációs együttható képlete a következő:
=CORREL(B2:B13, C2:C13)
Vagy felcserélhetjük a tartományokat, és akkor is ugyanazt az eredményt kapjuk:
=CORREL(C2:C13, B2:B13)
Akárhogy is, a képlet erős negatív korrelációt mutat (kb. -0,97) a havi átlaghőmérséklet és az eladott fűtőberendezések száma között:
3 dolog, amit tudnia kell a CORREL funkcióról az Excelben
A korrelációs együttható Excelben történő sikeres kiszámításához tartsa szem előtt ezt a 3 egyszerű tényt:
- Ha egy tömb egy vagy több cellája szöveget, logikai értékeket vagy üreseket tartalmaz, az ilyen cellákat figyelmen kívül hagyja; a nulla értékű cellák kiszámításra kerülnek.
- Ha a megadott tömbök különböző hosszúságúak, a rendszer #N/A hibaüzenetet küld vissza.
- Ha valamelyik tömb üres, vagy ha az értékek szórása nulla, akkor #DIV/0! hiba lép fel.
Excel PEARSON funkció
Az Excel PEARSON függvénye ugyanezt teszi - kiszámítja a Pearson Product Moment korrelációs együtthatót.
PEARSON(array1, array2)Hol:
- Array1 független értékek tartománya.
- Array2 a függő értékek tartománya.
Mivel a PEARSON és a CORREL egyaránt kiszámítja a Pearson-féle lineáris korrelációs együtthatót, az eredményeiknek meg kell egyezniük, és általában az Excel 2007-től az Excel 2019-ig terjedő legújabb verzióiban meg is egyeznek.
Az Excel 2003 és korábbi verziókban azonban a PEARSON funkció kerekítési hibákat mutathat, ezért a régebbi verziókban a CORREL funkció használata ajánlott a PEARSON helyett.
A mintánkban szereplő adathalmazon mindkét függvény ugyanazokat az eredményeket mutatja:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Hogyan készítsünk korrelációs mátrixot Excelben az adatelemzéssel
Ha kettőnél több változó közötti összefüggéseket kell vizsgálni, akkor érdemes korrelációs mátrixot készíteni, amelyet néha úgy hívnak, hogy többszörös korrelációs együttható .
A korrelációs mátrix egy táblázat, amely a megfelelő sorok és oszlopok metszéspontjában lévő változók közötti korrelációs együtthatókat mutatja.
Az Excelben a korrelációs mátrixot az alábbi módszerrel állítjuk össze Korreláció eszköz a Elemzési eszközcsomag Ez a bővítmény az Excel 2003-tól az Excel 2019-ig minden Excel-verzióban elérhető, de alapértelmezés szerint nincs engedélyezve. Ha még nem aktiválta, akkor ezt most tegye meg a Hogyan engedélyezzük az adatelemzési eszközcsomagot az Excelben című fejezetben leírt lépésekkel.
Az Excel szalaghoz hozzáadott adatelemző eszközökkel készen áll a korrelációelemzés futtatására:
- A jobb felső sarokban a Adatok tab> Elemzés csoport, kattintson a Adatelemzés gomb.
- A Adatelemzés párbeszédpanelen válassza a Korreláció és kattintson az OK gombra.
- A Korreláció dobozban a paramétereket így konfigurálja:
- Kattintson a Bemeneti tartomány mezőt, és válassza ki a forrásadatokat tartalmazó tartományt, beleértve az oszlopfejléceket is (esetünkben B1:D13).
- A Csoportosítva szakasz, győződjön meg róla, hogy a Oszlopok rádiómező be van jelölve (mivel a forrásadatok oszlopokba vannak csoportosítva).
- Válassza ki a Címkék az első sorban jelölőnégyzet, ha a kiválasztott tartomány oszlopfejléceket tartalmaz.
- Válassza ki a kívánt kimeneti opciót. Ha a mátrixot ugyanazon a lapon szeretné megjeleníteni, válassza a Kimeneti tartomány és adja meg a hivatkozást arra a bal szélső cellára, amelybe a mátrixot ki kell adni (ebben a példában A15).
Ha kész, kattintson a OK gomb:
A korrelációs együtthatók mátrixa elkészült, és a következő szakaszban látható módon kell kinéznie.
A korrelációelemzés eredményeinek értelmezése
Az Excel korrelációs mátrixában a sorok és oszlopok metszéspontjában lévő együtthatókat találja meg. Ha az oszlop és a sor koordinátái megegyeznek, akkor az 1 értéket adja ki.
A fenti példában a függő változó (az eladott fűtőberendezések száma) és két független változó (a havi átlaghőmérséklet és a reklámköltségek) közötti összefüggés érdekel bennünket. Ezért csak a sorok és oszlopok metszéspontjában lévő számokat nézzük, amelyek az alábbi képernyőképen ki vannak emelve:
A -0,97-es negatív együttható (2 tizedesjegyre kerekítve) erős fordított korrelációt mutat a havi hőmérséklet és a fűtőberendezések értékesítése között - ahogy a hőmérséklet emelkedik, úgy kevesebb fűtőberendezést adnak el.
A 0,97-es pozitív együttható (2 tizedesjegyre kerekítve) erős közvetlen kapcsolatot jelez a reklámköltségvetés és az értékesítés között - minél több pénzt költünk reklámra, annál nagyobb az értékesítés.
Hogyan végezzen többszörös korrelációs elemzést Excelben képletekkel
A korrelációs táblázat elkészítése az Adatelemzés eszközzel egyszerű. Ez a mátrix azonban statikus, ami azt jelenti, hogy a korrelációs elemzést minden alkalommal újra kell futtatnia, amikor a forrásadatok változnak.
A jó hír az, hogy könnyen létrehozhat egy hasonló korrelációs táblázatot, és ez a mátrix automatikusan frissül a forrásértékek minden egyes változásával.
Ehhez használja ezt az általános képletet:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, OSZLOPOK($A:A)-1)))Fontos megjegyzés! Ahhoz, hogy a képlet működjön, az első változótartományt abszolút cellahivatkozásokkal kell lezárni.
Esetünkben az első változó tartománya $B$2:$B$13 (kérjük, vegye figyelembe a $ jelet, amely lezárja a hivatkozást), és a korrelációs képletünk a következő alakot veszi fel:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
A képlet elkészültével építsük fel a korrelációs mátrixot:
- A mátrix első sorába és első oszlopába írja be a változók címkéit ugyanabban a sorrendben, ahogyan azok a forrástáblában szerepelnek (lásd az alábbi képernyőképet).
- Írja be a fenti képletet a bal szélső cellába (esetünkben B16).
- Húzza a képletet lefelé és jobbra, hogy annyi sorba és oszlopba másolja, ahány sorba és oszlopba szükséges (példánkban 3 sorba és 3 oszlopba).
Az eredmény a következő mátrix többszörös korrelációs együtthatókkal. Vegye észre, hogy a képletünk által visszaadott együtthatók pontosan ugyanazok, mint az Excel által az előző példában megadottak (a relevánsak ki vannak emelve):
Hogyan működik ez a képlet
Mint már tudja, az Excel CORREL függvénye visszaadja a korrelációs együtthatót az Ön által megadott két változókészletre. A fő kihívás az, hogy a mátrix megfelelő celláiban megadjuk a megfelelő tartományokat. Ehhez csak az első változótartományt adja meg a képletben, és a következő függvényekkel elvégezheti a szükséges beállításokat:
- OFFSET - olyan tartományt ad vissza, amely adott számú sor és oszlop távolságra van a megadott tartománytól.
- ROWS és COLUMNS - a sorok és oszlopok számát adja vissza egy tartományban. A mi korrelációs képletünkben mindkettőt egy céllal használjuk - megkapjuk az oszlopok számát a kezdő tartománytól eltolva. Ezt pedig az abszolút és relatív hivatkozások okos használatával érjük el.
A logika jobb megértéséhez nézzük meg, hogyan számítja ki a képlet a fenti képernyőképen kiemelt együtthatókat.
Először is vizsgáljuk meg a B18-as képletet, amely összefüggést talál a havi hőmérséklet (B2:B13) és az eladott fűtőberendezések (D2:D13) között:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
Az első OFFSET függvényben a ROWS($1:1) átalakult ROWS($1:3)-ra, mert a második koordináta relatív, tehát annak a sornak a relatív pozíciója alapján változik, ahová a képletet másoljuk (2 sorral lejjebb). Így a ROWS() 3-t ad vissza, amiből kivonjuk az 1-et, és egy olyan tartományt kapunk, amely 2 oszloppal jobbra van a forrás tartománytól, azaz $D$2:$D$13 (fűtési eladások).
A második OFFSET nem változtatja meg a megadott $B$2:$B$13 (hőmérséklet) tartományt, mivel a COLUMNS($A:A)-1 nulla értéket ad vissza.
Ennek eredményeként a hosszú képletünk egyszerű CORREL($D$2:$D$13, $B$2:$B$13) formulává alakul, és pontosan a kívánt együtthatót adja vissza.
A C18-ban található képlet, amely a reklámköltségek (C2:C13) és az eladások (D2:D13) korrelációs együtthatóját számítja ki, hasonló módon működik:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1)))
Az első OFFSET függvény teljesen megegyezik a fent leírtakkal, és a $D$2:$D$13 tartományt adja vissza (fűtési eladások).
A második OFFSET-ben a COLUMNS($A:A)-1 COLUMNS($A:B)-1-re változik, mivel a képletet 1 oszlopot jobbra másoltuk. Következésképpen az OFFSET egy olyan tartományt kap, amely 1 oszloppal jobbra van a forrás tartománytól, azaz $C$2:$C$13 (reklámköltség).
Hogyan készítsünk korrelációs grafikont az Excelben
Ha korrelációt végez az Excelben, az adatok közötti kapcsolatok vizuális megjelenítésének legjobb módja az, hogy rajzol egy szórásdiagram egy trendvonal Íme, hogyan:
- Válasszon ki két numerikus adatokat tartalmazó oszlopot, beleértve az oszlopfejléceket is. Az oszlopok sorrendje fontos: a független változónak a bal oldali oszlopban kell lennie, mivel ezt az oszlopot kell ábrázolni az x tengelyen; a függő változónak a jobb oldali oszlopban kell lennie, mivel az y tengelyen lesz ábrázolva.
- A Beépített lapon, a Beszélgetések csoport, kattintson a Scatter Ez azonnal beilleszt egy XY szórásdiagramot a munkalapba.
- Kattintson a jobb gombbal a diagram bármelyik adatpontjára, és válassza a Trendvonal hozzáadása... a kontextusmenüből.
A részletes, lépésről-lépésre történő útmutatót lásd:
- Hogyan hozzon létre szórásdiagramot az Excelben
- Hogyan adjunk trendvonalat az Excel diagramhoz
A mintaadathalmazunk esetében a korrelációs grafikonok az alábbi képen látható módon néznek ki. Ezen kívül megjelenítettük az R-négyzet értéket, más néven a Meghatározási együttható Ez az érték azt jelzi, hogy a trendvonal mennyire felel meg az adatoknak - minél közelebb van az R2 az 1-hez, annál jobb az illeszkedés.
A szórásdiagramon megjelenített R2 értékből könnyen kiszámíthatja a korrelációs együtthatót:
- A nagyobb pontosság érdekében az Excel segítségével az R-négyzet értékében az alapértelmezettnél több számjegyet jeleníthet meg.
- Kattintson az R2 értékre a diagramon, jelölje ki az egérrel, majd nyomja meg a Ctrl + C billentyűkombinációt a másoláshoz.
- Az R2 négyzetgyökét vagy az SQRT függvény használatával, vagy a másolt R2 érték 0,5 hatványára történő emelésével kapja meg.
Például a második grafikonon az R2 érték 0,9174339392. Tehát a korrelációs együtthatót a következőkre lehet kiszámítani Reklám és Eladott fűtőtestek az alábbi képletek egyikével:
=SQRT(0.9174339392)
=0.9174339392^0.5
Mint arról meggyőződhet, az így kiszámított együtthatók tökéletesen megfelelnek az előző példákban talált korrelációs együtthatóknak, kivéve a jelet :
A korrelációval kapcsolatos lehetséges problémák az Excelben
A Pearson Product Moment korreláció csak egy lineáris kapcsolat a két változó között. Vagyis a változók erősen összefügghetnek egymással más, görbületi módon, és a korrelációs együttható mégis egyenlő vagy közel nulla.
A Pearson-féle korreláció nem képes különbséget tenni a következők között függő és független Például, amikor a CORREL függvényt használtuk, hogy megtaláljuk a havi átlaghőmérséklet és az eladott fűtőtestek száma közötti összefüggést, -0,97-es együtthatót kaptunk, ami magas negatív korrelációt jelez. Azonban megcserélhetjük a változókat, és ugyanezt az eredményt kapjuk. Tehát valaki arra a következtetésre juthat, hogy a magasabb fűtőtest-eladások a hőmérséklet csökkenését okozzák, ami nyilvánvalóan nem jelent semmit.Ezért az Excelben végzett korrelációelemzés során ügyeljen arra, hogy milyen adatokat szolgáltat.
Emellett a Pearson-féle korreláció nagyon érzékeny a következőkre kiugró értékek Ha egy vagy több olyan adatpont van, amely nagymértékben eltér az adatok többi részétől, akkor torz képet kaphat a változók közötti kapcsolatról. Ebben az esetben bölcsen teszi, ha helyette a Spearman-féle rangkorrelációt használja.
Így végezhetünk korrelációt Excelben. Ha közelebbről is meg szeretné nézni a bemutatóban tárgyalt példákat, szívesen letölti az alábbi minta munkafüzetünket. Köszönöm, hogy elolvasta, és remélem, jövő héten találkozunk a blogunkon!
Gyakorló munkafüzet
Korreláció kiszámítása Excelben (.xlsx fájl)