Turinys
Mokomojoje programoje paaiškinami koreliacijos pagrindai "Excel" programoje, parodoma, kaip apskaičiuoti koreliacijos koeficientą, sudaryti koreliacijos matricą ir interpretuoti rezultatus.
Vienas iš paprasčiausių statistinių skaičiavimų, kuriuos galite atlikti "Excel" programa, yra koreliacija. Nors ir paprastas, jis yra labai naudingas norint suprasti dviejų ar daugiau kintamųjų tarpusavio ryšius. "Microsoft Excel" programoje yra visos reikiamos priemonės koreliacijos analizei atlikti, tereikia žinoti, kaip jomis naudotis.
Koreliacija programoje "Excel" - pagrindai
Koreliacija tai matas, apibūdinantis ryšio tarp dviejų kintamųjų stiprumą ir kryptį. Jis dažniausiai naudojamas statistikoje, ekonomikoje ir socialiniuose moksluose sudarant biudžetus, verslo planus ir pan.
Metodas, naudojamas tirti, kaip glaudžiai susiję kintamieji, vadinamas koreliacijos analizė .
Štai keletas stiprios koreliacijos pavyzdžių:
- Suvalgomų kalorijų skaičius ir jūsų svoris (teigiama koreliacija)
- Lauko temperatūra ir sąskaitos už šildymą (neigiama koreliacija)
O štai duomenų, kurių koreliacija yra silpna arba jos iš viso nėra, pavyzdžiai:
- Jūsų katės vardas ir mėgstamiausias maistas
- Jūsų akių spalva ir ūgis
Svarbiausia suprasti, kad koreliacija parodo tik tai, kaip glaudžiai susiję du kintamieji. Tačiau koreliacija nereiškia priežastinio ryšio. Tai, kad vieno kintamojo pokyčiai susiję su kito kintamojo pokyčiais, nereiškia, kad vienas kintamasis iš tikrųjų lemia kito kintamojo pokyčius.
Jei norite išsiaiškinti priežastinį ryšį ir atlikti prognozes, ženkite žingsnį į priekį ir atlikite tiesinę regresinę analizę.
Koreliacijos koeficientas programoje "Excel" - koreliacijos aiškinimas
Skaitmeninis dviejų ištisinių kintamųjų ryšio laipsnio matas vadinamas koreliacijos koeficientas (r).
Koeficiento reikšmė visada yra nuo -1 iki 1, ir ji parodo kintamųjų tiesinio ryšio stiprumą ir kryptį.
Stiprumas
Kuo didesnė absoliutinė koeficiento vertė, tuo stipresnis ryšys:
- Kraštutinės reikšmės -1 ir 1 rodo tobulą tiesinį ryšį, kai visi duomenų taškai patenka į tiesę. Praktikoje tobulas ryšys, tiek teigiamas, tiek neigiamas, pastebimas retai.
- Koeficientas 0 rodo, kad tarp kintamųjų nėra tiesinio ryšio. Būtent tokį rezultatą greičiausiai gausime iš dviejų atsitiktinių skaičių rinkinių.
- Reikšmės nuo 0 iki +1/-1 reiškia silpną, vidutinį ir stiprų ryšį. kaip r artėja prie -1 arba 1, ryšio stiprumas didėja.
Kryptis
Koeficiento ženklas (pliusas arba minusas) rodo ryšio kryptį.
- Teigiamas koeficientai rodo tiesioginę koreliaciją ir grafike rodo didėjantį nuolydį - didėjant vienam kintamajam, didėja ir kitas, ir atvirkščiai.
- Neigiamas koeficientai rodo atvirkštinę koreliaciją ir grafike rodo mažėjantį nuolydį - vienam kintamajam didėjant, kitas kintamasis turi tendenciją mažėti.
Kad geriau suprastumėte, pažvelkite į šias koreliacijos diagramas:
- Koeficientas 1 reiškia tobulą teigiamą ryšį - didėjant vienam kintamajam, proporcingai didėja ir kitas.
- Koeficientas -1 reiškia tobulą neigiamą ryšį - vienam kintamajam didėjant, kitas proporcingai mažėja.
- Koeficientas 0 reiškia, kad tarp dviejų kintamųjų nėra ryšio - duomenų taškai išsibarstę po visą grafiką.
Pearsono koreliacija
Statistikoje matuojamos kelių tipų koreliacijos, priklausomai nuo duomenų, su kuriais dirbate, tipo. Šioje pamokoje daugiausia dėmesio skirsime labiausiai paplitusiai koreliacijai.
Pirsono koreliacija , pilnas pavadinimas yra Pirsono produkto momento koreliacija (PPMC), naudojamas vertinti linijinis ryšiai tarp duomenų, kai vieno kintamojo pokytis yra susijęs su proporcingu kito kintamojo pokyčiu. Paprasčiau tariant, Pirsono koreliacija atsako į klausimą: Ar galima duomenis pavaizduoti tiesėje?
Statistikoje tai yra populiariausias koreliacijos tipas, ir jei susiduriate su "koreliacijos koeficientu" be papildomo patikslinimo, greičiausiai tai bus Pearsonas.
Pateikiame dažniausiai naudojamą formulę Pirsono koreliacijos koeficientui, dar vadinamam Pirsono R :
Kartais galite susidurti su dviem kitomis formulėmis, kaip apskaičiuoti imties koreliacijos koeficientas (r) ir gyventojų koreliacijos koeficientas (ρ).
Kaip atlikti Pearsono koreliaciją programoje "Excel
Pearsono koreliacijos koeficiento skaičiavimas rankiniu būdu reikalauja nemažai matematikos. Laimei, "Microsoft Excel" programa viską labai supaprastino. Priklausomai nuo duomenų rinkinio ir tikslo, galite naudoti vieną iš toliau nurodytų metodų:
- Raskite Pearsono koreliacijos koeficientą naudodami funkciją CORREL.
- Atlikdami duomenų analizę sudarykite koreliacijos matricą.
- Raskite daugialypės koreliacijos koeficientus pagal formulę.
- Nubraižykite koreliacijos grafiką, kad vizualiai pavaizduotumėte duomenų ryšį.
Kaip apskaičiuoti koreliacijos koeficientą programoje "Excel
Norėdami apskaičiuoti koreliacijos koeficientą ranka, turėtumėte naudoti šią ilgą formulę. Norėdami rasti koreliacijos koeficientą "Excel" programoje, pasinaudokite CORREL arba PEARSON funkcija ir rezultatą gaukite per sekundės dalį.
"Excel" CORREL funkcija
Funkcija CORREL grąžina Pearsono koreliacijos koeficientą dviem reikšmių rinkiniams. Jos sintaksė labai paprasta ir nesudėtinga:
CORREL(array1, array2)Kur:
- Masyvas1 yra pirmasis verčių intervalas.
- Masyvas2 yra antrasis verčių intervalas.
Abu masyvai turi būti vienodo ilgio.
Darant prielaidą, kad turime nepriklausomų kintamųjų rinkinį ( x ) B2:B13 ir priklausomus kintamuosius (y) C2:C13, mūsų koreliacijos koeficiento formulė yra tokia:
=CORREL(B2:B13, C2:C13)
Arba galime sukeisti intervalus vietomis ir gauti tą patį rezultatą:
=CORREL(C2:C13, B2:B13)
Bet kuriuo atveju formulė rodo stiprų neigiamą ryšį (apie -0,97) tarp vidutinės mėnesio temperatūros ir parduotų šildytuvų skaičiaus:
3 dalykai, kuriuos turėtumėte žinoti apie "Excel" funkciją CORREL
Norėdami sėkmingai apskaičiuoti koreliacijos koeficientą "Excel" programoje, nepamirškite šių 3 paprastų faktų:
- Jei viename ar keliuose masyvo langeliuose yra teksto, loginių reikšmių arba tuščių langelių, tokie langeliai ignoruojami; langeliai su nulinėmis reikšmėmis apskaičiuojami.
- Jei pateikti masyvai yra skirtingo ilgio, grąžinama #N/A klaida.
- Jei kuris nors iš masyvų yra tuščias arba jei jų verčių standartinis nuokrypis lygus nuliui, įvyksta #DIV/0! klaida.
"Excel" PEARSON funkcija
"Excel" funkcija PEARSON atlieka tą patį - apskaičiuoja Pearson Product Moment Correlation koeficientą.
PEARSON(array1, array2)Kur:
- Masyvas1 yra nepriklausomų verčių intervalas.
- Masyvas2 yra priklausomų verčių intervalas.
Kadangi PEARSON ir CORREL abu skaičiuoja Pirsono tiesinės koreliacijos koeficientą, jų rezultatai turėtų sutapti, o naujausiose "Excel 2007" - "Excel 2019" versijose jie paprastai sutampa.
Tačiau "Excel 2003" ir ankstesnėse versijose funkcija PEARSON gali rodyti tam tikras apvalinimo klaidas. Todėl senesnėse versijose rekomenduojama naudoti CORREL, o ne PEARSON.
Mūsų pavyzdinių duomenų rinkinio atveju abi funkcijos rodo tuos pačius rezultatus:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Kaip sukurti koreliacijos matricą "Excel" programoje naudojant duomenų analizę
Kai reikia patikrinti daugiau nei dviejų kintamųjų tarpusavio ryšius, tikslinga sudaryti koreliacijos matricą, kuri kartais vadinama daugialypės koreliacijos koeficientas .
Svetainė koreliacijos matrica tai lentelė, kurioje pateikiami koreliacijos koeficientai tarp kintamųjų, esančių atitinkamų eilučių ir stulpelių sankirtoje.
Koreliacijos matrica "Excel" programoje sudaroma naudojant Koreliacija įrankis iš "Analysis ToolPak Šis priedas yra prieinamas visose "Excel 2003" - "Excel 2019" versijose, tačiau pagal numatytuosius nustatymus jis nėra įjungtas. Jei jo dar neįjungėte, padarykite tai dabar, atlikdami veiksmus, aprašytus skyriuje Kaip įjungti "Data Analysis ToolPak" programą "Excel".
Į "Excel" juostą įtraukę duomenų analizės įrankius, esate pasirengę atlikti koreliacinę analizę:
- Viršutiniame dešiniajame kampe Duomenys skirtukas> Analizė grupę, spustelėkite Duomenų analizė mygtuką.
- Į Duomenų analizė dialogo lange pasirinkite Koreliacija ir spustelėkite OK.
- Į Koreliacija lange taip sukonfigūruokite parametrus:
- Spustelėkite Įvesties diapazonas langelį ir pasirinkite intervalą su šaltinio duomenimis, įskaitant stulpelių antraštes (mūsų atveju B1:D13).
- Į Sugrupuota pagal skyriuje įsitikinkite, kad Stulpeliai pasirenkamas radijo laukelis (atsižvelgiant į tai, kad jūsų šaltinio duomenys sugrupuoti į stulpelius).
- Pasirinkite Etiketės pirmoje eilutėje žymimąjį langelį, jei pasirinktame diapazone yra stulpelių antraščių.
- Pasirinkite norimą išvesties parinktį. Jei norite, kad matrica būtų tame pačiame lape, pasirinkite Išėjimo diapazonas ir nurodykite nuorodą į kraštutinį kairįjį langelį, į kurį turi būti išvesta matrica (šiame pavyzdyje - A15).
Kai baigsite, spustelėkite GERAI mygtuką:
Jūsų koreliacijos koeficientų matrica yra parengta ir turėtų atrodyti taip, kaip parodyta kitame skyriuje.
Koreliacinės analizės rezultatų aiškinimas
Savo "Excel" koreliacijos matricoje galite rasti koeficientus eilučių ir stulpelių sankirtoje. Jei stulpelio ir eilutės koordinatės sutampa, išvedama reikšmė 1.
Pirmiau pateiktame pavyzdyje norime sužinoti priklausomo kintamojo (parduotų šildytuvų skaičius) ir dviejų nepriklausomų kintamųjų (vidutinė mėnesio temperatūra ir reklamos išlaidos) koreliaciją. Taigi, žiūrime tik į šių eilučių ir stulpelių sankirtoje esančius skaičius, kurie yra paryškinti toliau pateiktoje ekrano kopijoje:
Neigiamas koeficientas -0,97 (suapvalintas iki 2 skaičių po kablelio) rodo stiprią atvirkštinę koreliaciją tarp mėnesio temperatūros ir šildytuvų pardavimų - temperatūrai kylant aukščiau, parduodama mažiau šildytuvų.
Teigiamas 0,97 koeficientas (suapvalintas iki 2 skaičių po kablelio) rodo stiprų tiesioginį ryšį tarp reklamos biudžeto ir pardavimų - kuo daugiau pinigų išleidžiama reklamai, tuo didesni pardavimai.
Kaip atlikti daugialypės koreliacijos analizę programoje "Excel" naudojant formules
Duomenų analizės įrankiu sudaryti koreliacijos lentelę nesudėtinga. Tačiau ši matrica yra statiška, t. y. kiekvieną kartą, kai keičiasi šaltinio duomenys, koreliacijos analizę reikia atlikti iš naujo.
Gera žinia ta, kad panašią koreliacijos lentelę galite nesunkiai sukurti patys, ir ši matrica bus automatiškai atnaujinama kiekvieną kartą pasikeitus šaltinio reikšmėms.
Norėdami tai padaryti, naudokite šią bendrą formulę:
CORREL(OFFSET( first_variable_range , 0, EILUTĖS($1:1)-1), OFFSET( first_variable_range , 0, STULPELIAI($A:A)-1))Svarbi pastaba! Kad formulė veiktų, pirmąjį kintamųjų intervalą reikia užrakinti naudojant absoliučiąsias ląstelių nuorodas.
Mūsų atveju pirmasis kintamojo diapazonas yra $B$2:$B$13 (atkreipkite dėmesį į $ ženklą, kuris užrakina nuorodą), o mūsų koreliacijos formulė yra tokios formos:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Parengę formulę, sudarykime koreliacijos matricą:
- Pirmoje matricos eilutėje ir pirmame stulpelyje įveskite kintamųjų etiketes ta pačia tvarka, kaip jie pateikti jūsų šaltinio lentelėje (žr. toliau pateiktą ekrano nuotrauką).
- Įveskite pirmiau pateiktą formulę į kairiausią langelį (mūsų atveju B16).
- Vilkite formulę žemyn ir į dešinę, kad nukopijuotumėte ją į tiek eilučių ir stulpelių, kiek reikia (mūsų pavyzdyje - į 3 eilutes ir 3 stulpelius).
Kaip rezultatą gavome toliau pateiktą matricą su keliais koreliacijos koeficientais. Atkreipkite dėmesį, kad mūsų formulės grąžinti koeficientai yra lygiai tokie patys, kokius "Excel" išvedė ankstesniame pavyzdyje (atitinkami koeficientai yra paryškinti):
Kaip veikia ši formulė
Kaip jau žinote, "Excel" funkcija CORREL grąžina dviejų nurodytų kintamųjų rinkinių koreliacijos koeficientą. Pagrindinis uždavinys - atitinkamose matricos ląstelėse pateikti atitinkamus intervalus. Šiuo tikslu formulėje įrašykite tik pirmąjį kintamųjų intervalą, o reikiamiems patikslinimams atlikti naudokite toliau nurodytas funkcijas:
- OFFSET - grąžina intervalą, kuris yra tam tikru eilučių ir stulpelių skaičiumi nutolęs nuo nurodyto intervalo.
- ROWS ir COLUMNS - grąžina atitinkamai eilučių ir stulpelių skaičių diapazone. Mūsų koreliacijos formulėje abi formulės naudojamos vienu tikslu - gauti stulpelių skaičių, kurį reikia atitraukti nuo pradinio diapazono. Tai pasiekiama sumaniai naudojant absoliučiąsias ir santykines nuorodas.
Kad geriau suprastumėte logiką, pažiūrėkime, kaip pagal formulę apskaičiuojami pirmiau pateiktoje ekrano nuotraukoje pažymėti koeficientai.
Pirmiausia išnagrinėkime B18 formulę, pagal kurią nustatoma mėnesio temperatūros (B2:B13) ir parduotų šildytuvų (D2:D13) koreliacija:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Pirmoje OFFSET funkcijoje ROWS($1:1) virto ROWS($1:3), nes antroji koordinatė yra santykinė, todėl ji keičiasi priklausomai nuo eilutės, į kurią kopijuojama formulė, santykinės padėties (2 eilutėmis žemyn). Taigi ROWS() grąžina 3, iš kurios atimame 1 ir gauname intervalą, kuris yra 2 stulpeliais į dešinę nuo pradinio intervalo, t. y. $D$2:$D$13 (šildytuvo pardavimai).
Antrasis OFFSET nekeičia nurodyto intervalo $B$2:$B$13 (temperatūra), nes COLUMNS($A:A)-1 grąžina nulį.
Todėl mūsų ilga formulė virsta paprasta CORREL($D$2:$D$13, $B$2:$B$13) ir grąžina būtent tokį koeficientą, kokio norime.
Panašiai veikia ir C18 formulė, pagal kurią apskaičiuojamas reklamos išlaidų (C2:C13) ir pardavimų (D2:D13) koreliacijos koeficientas:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
Pirmoji OFFSET funkcija yra visiškai tokia pati, kaip aprašyta pirmiau, grąžinant diapazoną $D$2:$D$13 (šildytuvo pardavimai).
Antrajame OFFSET veiksme COLUMNS($A:A)-1 pasikeičia į COLUMNS($A:B)-1, nes formulę nukopijavome 1 stulpeliu į dešinę. Todėl OFFSET gaunamas diapazonas, kuris yra 1 stulpeliu į dešinę nuo pradinio diapazono, t. y. $C$2:$C$13 (reklamos išlaidos).
Kaip "Excel" programoje nubraižyti koreliacijos grafiką
Atliekant koreliaciją "Excel" programoje, geriausias būdas vizualiai pavaizduoti ryšius tarp duomenų yra nubrėžti sklaidos sklypas su tendencijos linija Štai kaip:
- Pasirinkite du stulpelius su skaitmeniniais duomenimis, įskaitant stulpelių antraštes. Stulpelių eiliškumas yra svarbus: pvz. nepriklausomas kintamasis turėtų būti kairiajame stulpelyje, nes šis stulpelis bus vaizduojamas ant x ašies. priklausomas kintamasis turėtų būti dešiniajame stulpelyje, nes jis bus pavaizduotas y ašyje.
- Dėl Įdėklas skirtuke Pokalbiai grupę, spustelėkite Sklaida diagramos piktogramą. Tai iš karto į darbalapį įterps XY sklaidos diagramą.
- Dešiniuoju pelės mygtuku spustelėkite bet kurį diagramos duomenų tašką ir pasirinkite Pridėti Trendline... iš kontekstinio meniu.
Išsamias žingsnis po žingsnio instrukcijas žr:
- Kaip sukurti sklaidos diagramą "Excel" programoje
- Kaip pridėti tendencijos liniją prie "Excel" diagramos
Mūsų pavyzdinio duomenų rinkinio koreliacijos grafikai atrodo taip, kaip parodyta toliau pateiktame paveikslėlyje. Be to, mes parodėme R kvadrato vertę, dar vadinamą Nustatymo koeficientas Ši reikšmė rodo, kaip gerai trendo linija atitinka duomenis - kuo R2 artimesnis 1, tuo geriau atitinka.
Pagal sklaidos diagramoje rodomą R2 vertę galite lengvai apskaičiuoti koreliacijos koeficientą:
- Jei norite didesnio tikslumo, priverskite "Excel" rodyti daugiau R kvadrato reikšmės skaitmenų nei pagal numatytuosius nustatymus.
- Diagramoje spustelėkite R2 reikšmę, pažymėkite ją pele ir paspauskite Ctrl + C, kad ją nukopijuotumėte.
- Gaukite R2 kvadratinę šaknį naudodami funkciją SQRT arba padidindami nukopijuotą R2 reikšmę iki 0,5 galybės.
Pavyzdžiui, antrojo grafiko R2 reikšmė yra 0,9174339392. Taigi, koreliacijos koeficientą galite rasti Reklama ir Parduodami šildytuvai naudojant vieną iš šių formulių:
=SQRT(0,9174339392)
=0.9174339392^0.5
Kaip galite įsitikinti, taip apskaičiuoti koeficientai visiškai atitinka ankstesniuose pavyzdžiuose nustatytus koreliacijos koeficientus, išskyrus ženklą :
Galimos koreliacijos problemos "Excel" programoje
Svetainė Pirsono produkto momento koreliacija atskleidžia tik linijinis Tai reiškia, kad jūsų kintamieji gali būti stipriai susiję kitu, kreiviniu būdu, ir vis tiek koreliacijos koeficientas bus lygus arba artimas nuliui.
Pirsono koreliacija negali atskirti priklausomas ir nepriklausomas Pavyzdžiui, naudodami CORREL funkciją, kad rastume ryšį tarp vidutinės mėnesio temperatūros ir parduotų šildytuvų skaičiaus, gavome koeficientą -0,97, o tai rodo didelę neigiamą koreliaciją. Tačiau galima sukeisti kintamuosius vietomis ir gauti tą patį rezultatą. Taigi, kas nors gali padaryti išvadą, kad dėl didesnių šildytuvų pardavimų krenta temperatūra, o tai, žinoma, neturi jokios reikšmės.Todėl, atlikdami koreliacinę analizę "Excel" programoje, turėkite omenyje, kokius duomenis pateikiate.
Be to, Pirsono koreliacija yra labai jautri nuokrypiai . Jei turite vieną ar daugiau duomenų taškų, kurie labai skiriasi nuo likusių duomenų, galite gauti iškreiptą kintamųjų tarpusavio ryšio vaizdą. Tokiu atveju būtų protinga vietoj to naudoti Spearmano ranginę koreliaciją.
Štai kaip atlikti koreliaciją "Excel" programoje. Norėdami atidžiau susipažinti su šioje pamokoje aptartais pavyzdžiais, galite atsisiųsti toliau pateiktą pavyzdinį sąsiuvinį. Dėkoju, kad perskaitėte, ir tikiuosi, kad kitą savaitę susitiksime mūsų tinklaraštyje!
Praktikos sąsiuvinis
Koreliacijos apskaičiavimas "Excel" (.xlsx faile)