Sisällysluettelo
Ohjeessa selitetään korrelaation perusteet Excelissä, näytetään, miten korrelaatiokerroin lasketaan, muodostetaan korrelaatiomatriisi ja tulkitaan tuloksia.
Yksi yksinkertaisimmista tilastollisista laskutoimituksista, joita voit tehdä Excelissä, on korrelaatio. Vaikka se on yksinkertainen, se on erittäin hyödyllinen kahden tai useamman muuttujan välisten suhteiden ymmärtämisessä. Microsoft Excel tarjoaa kaikki tarvittavat työkalut korrelaatioanalyysin suorittamiseen, sinun on vain osattava käyttää niitä.
Korrelaatio Excelissä - perusteet
Korrelaatio on mittari, joka kuvaa kahden muuttujan välisen suhteen voimakkuutta ja suuntaa. Sitä käytetään yleisesti tilastotieteissä, taloustieteissä ja yhteiskuntatieteissä talousarvioissa, liiketoimintasuunnitelmissa ja vastaavissa.
Menetelmää, jolla tutkitaan, kuinka läheisesti muuttujat liittyvät toisiinsa, kutsutaan nimellä korrelaatioanalyysi .
Tässä on pari esimerkkiä vahvasta korrelaatiosta:
- Syömiesi kalorien määrä ja painosi (positiivinen korrelaatio).
- Ulkolämpötila ja lämmityslaskut (negatiivinen korrelaatio).
Ja tässä esimerkkejä tiedoista, joiden korrelaatio on heikko tai ei ole lainkaan:
- Kissasi nimi ja sen lempiruoka
- Silmiesi väri ja pituutesi
Korrelaatiosta on ymmärrettävä, että se osoittaa vain, kuinka läheisesti kaksi muuttujaa liittyvät toisiinsa. Korrelaatio ei kuitenkaan merkitse syy-yhteyttä. Se, että yhden muuttujan muutokset liittyvät toisen muuttujan muutoksiin, ei tarkoita, että yksi muuttuja todella aiheuttaa toisen muuttujan muutoksen.
Jos olet kiinnostunut oppimaan kausaalisuudesta ja tekemään ennusteita, ota askel eteenpäin ja suorita lineaarinen regressioanalyysi.
Korrelaatiokerroin Excelissä - korrelaation tulkinta
Kahden jatkuvan muuttujan välisen yhteyden asteen numeerista mittaria kutsutaan nimellä korrelaatiokerroin (r).
Kertoimen arvo on aina välillä -1 ja 1, ja se mittaa sekä muuttujien välisen lineaarisen suhteen voimakkuutta että suuntaa.
Vahvuus
Mitä suurempi kertoimen absoluuttinen arvo on, sitä vahvempi suhde on:
- Ääriarvot -1 ja 1 osoittavat täydellistä lineaarista yhteyttä, kun kaikki datapisteet osuvat samalle viivalle. Käytännössä täydellistä korrelaatiota, joko positiivista tai negatiivista, havaitaan harvoin.
- Kerroin 0 tarkoittaa, että muuttujien välillä ei ole lineaarista suhdetta. Tällaisen tuloksen saat todennäköisesti kahdella satunnaislukusarjalla.
- Arvot 0 ja +1/-1 edustavat asteikkoa, jossa suhteet ovat heikkoja, kohtalaisia ja vahvoja. Koska r lähestyy joko -1:tä tai 1:tä, suhteen voimakkuus kasvaa.
Suunta
Kertoimen merkki (plus tai miinus) osoittaa suhteen suunnan.
- Positiivinen kertoimet edustavat suoraa korrelaatiota ja tuottavat kuvaajaan nousevan kaltevuuden - kun yksi muuttuja kasvaa, kasvaa myös toinen muuttuja ja päinvastoin.
- Negatiivinen kertoimet edustavat käänteistä korrelaatiota ja tuottavat kuvaajaan kaltevuuden alaspäin - kun yksi muuttuja kasvaa, toinen muuttuja pyrkii pienenemään.
Paremman ymmärryksen saamiseksi katso seuraavia korrelaatiokaavioita:
- Kerroin 1 tarkoittaa täydellistä positiivista suhdetta - kun yksi muuttuja kasvaa, toinen muuttuja kasvaa samassa suhteessa.
- Kerroin -1 tarkoittaa täydellistä negatiivista suhdetta - kun yksi muuttuja kasvaa, toinen muuttuja pienenee samassa suhteessa.
- Kerroin 0 tarkoittaa, että kahden muuttujan välillä ei ole yhteyttä - datapisteet ovat hajallaan eri puolilla kuvaajaa.
Pearsonin korrelaatio
Tilastotieteessä mitataan useita erilaisia korrelaatiotyyppejä riippuen siitä, minkä tyyppisen datan kanssa työskentelet. Tässä oppaassa keskitymme yleisimpään korrelaatioon.
Pearsonin korrelaatio , koko nimi on Pearsonin tuotehetken korrelaatio (PPMC), jota käytetään arvioitaessa lineaarinen tietojen väliset suhteet, kun yhden muuttujan muutos liittyy toisen muuttujan suhteelliseen muutokseen. Yksinkertaisesti sanottuna Pearsonin korrelaatio vastaa kysymykseen: Voidaanko tiedot esittää viivalla?
Tilastoissa se on suosituin korrelaatiotyyppi, ja jos kyseessä on "korrelaatiokerroin" ilman tarkempia määritelmiä, kyseessä on todennäköisesti Pearsonin korrelaatiokerroin.
Tässä on yleisimmin käytetty kaava Pearsonin korrelaatiokertoimen löytämiseksi, jota kutsutaan myös nimellä Pearsonin R :
Toisinaan saatat törmätä kahteen muuhun kaavaan, joiden avulla lasketaan otoksen korrelaatiokerroin (r) ja väestön korrelaatiokerroin (ρ).
Pearsonin korrelaation tekeminen Excelissä
Pearsonin korrelaatiokertoimen laskeminen käsin vaatii melko paljon matematiikkaa. Onneksi Microsoft Excel on tehnyt asiasta hyvin yksinkertaista. Aineistostasi ja tavoitteestasi riippuen voit käyttää vapaasti jotakin seuraavista tekniikoista:
- Etsi Pearsonin korrelaatiokerroin CORREL-funktiolla.
- Tee korrelaatiomatriisi suorittamalla Data Analysis.
- Etsi moninkertaiset korrelaatiokertoimet kaavan avulla.
- Piirrä korrelaatiokuvaaja, jotta saat visuaalisen esityksen tietojen välisestä suhteesta.
Korrelaatiokertoimen laskeminen Excelissä
Jos haluat laskea korrelaatiokertoimen käsin, sinun on käytettävä tätä pitkällistä kaavaa. Jos haluat löytää korrelaatiokertoimen Excelissä, käytä CORREL- tai PEARSON-toimintoa ja saat tuloksen sekunnin murto-osassa.
Excelin CORREL-toiminto
CORREL-funktio palauttaa Pearsonin korrelaatiokertoimen kahdelle arvojoukolle. Sen syntaksi on hyvin helppo ja suoraviivainen:
CORREL(array1, array2)Missä:
- Array1 on ensimmäinen arvoalue.
- Array2 on toinen arvoalue.
Molempien matriisien on oltava yhtä pitkiä.
Oletetaan, että meillä on joukko riippumattomia muuttujia ( x ) B2:B13:ssa ja riippuvaiset muuttujat (y) C2:C13:ssa, korrelaatiokertoimen kaava on seuraava:
=CORREL(B2:B13, C2:C13)
Voisimme myös vaihtaa alueita ja saada silti saman tuloksen:
=CORREL(C2:C13, B2:B13)
Joka tapauksessa kaava osoittaa vahvaa negatiivista korrelaatiota (noin -0,97) kuukausittaisen keskilämpötilan ja myytyjen lämmittimien määrän välillä:
3 asiaa, jotka sinun tulisi tietää Excelin CORREL-funktiosta
Jos haluat laskea korrelaatiokertoimen Excelissä onnistuneesti, pidä mielessä nämä kolme yksinkertaista seikkaa:
- Jos yksi tai useampi sarjan solu sisältää tekstiä, loogisia arvoja tai tyhjiä, nämä solut jätetään huomiotta; solut, joissa on nolla-arvoja, lasketaan.
- Jos toimitetut taulukot ovat eripituisia, palautetaan virhe #N/A.
- Jos jompikumpi matriiseista on tyhjä tai jos niiden arvojen keskihajonta on nolla, syntyy virhe #DIV/0!.
Excel PEARSON-toiminto
Excelin PEARSON-funktio tekee saman asian - se laskee Pearsonin tuotehetkikorrelaatiokertoimen.
PEARSON(array1, array2)Missä:
- Array1 on riippumattomien arvojen alue.
- Array2 on riippuvaisten arvojen alue.
Koska PEARSON ja CORREL laskevat molemmat Pearsonin lineaarisen korrelaatiokertoimen, niiden tulosten pitäisi olla yhteneväiset, ja yleensä ne ovatkin yhteneväisiä Excel 2007:n ja Excel 2019:n uusimmissa versioissa.
Excel 2003:ssa ja sitä vanhemmissa versioissa PEARSON-toiminto saattaa kuitenkin näyttää joitakin pyöristysvirheitä, joten vanhemmissa versioissa on suositeltavaa käyttää CORREL-toimintoa PEARSON-toiminnon sijasta.
Molemmat funktiot antavat esimerkkiaineistossamme samat tulokset:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Miten tehdä korrelaatiomatriisi Excelissä Data Analysis -ohjelmalla?
Kun on tarpeen testata useamman kuin kahden muuttujan välisiä yhteyksiä, on järkevää rakentaa korrelaatiomatriisi, jota kutsutaan joskus nimellä moninkertainen korrelaatiokerroin .
The korrelaatiomatriisi on taulukko, jossa esitetään vastaavien rivien ja sarakkeiden leikkauspisteessä olevien muuttujien väliset korrelaatiokertoimet.
Excelissä korrelaatiomatriisi muodostetaan käyttämällä funktiota Korrelaatio työkalu Analysis ToolPak Tämä lisäosa on käytettävissä kaikissa Excel 2003 - Excel 2019 -versioissa, mutta se ei ole oletusarvoisesti käytössä. Jos et ole vielä aktivoinut sitä, tee se nyt noudattamalla ohjeita, jotka on kuvattu kohdassa Data Analysis ToolPak -työkalun ottaminen käyttöön Excelissä.
Kun Excelin nauhaan on lisätty Data Analysis -työkalut, olet valmis suorittamaan korrelaatioanalyysin:
- Oikeassa yläkulmassa on Tiedot tab> Analyysi ryhmää, napsauta Tietojen analysointi nappi.
- Vuonna Tietojen analysointi valintaikkunassa, valitse Korrelaatio ja napsauta OK.
- Vuonna Korrelaatio laatikossa, määritä parametrit tällä tavalla:
- Napsauta Tuloalue ruutuun ja valitse alue, jossa on lähdetietosi, mukaan lukien sarakeotsikot (tässä tapauksessa B1:D13).
- Vuonna Ryhmittely osiossa, varmista, että Sarakkeet valintaruutu on valittuna (koska lähdetiedot on ryhmitelty sarakkeisiin).
- Valitse Merkinnät ensimmäisellä rivillä valintaruutu, jos valittu alue sisältää sarakeotsikoita.
- Valitse haluamasi tulostusvaihtoehto. Jos haluat matriisin samalle arkille, valitse Lähtöalue ja määritä viittaus vasemmanpuoleisimpaan soluun, johon matriisi tulostetaan (tässä esimerkissä A15).
Kun olet valmis, napsauta OK nappi:
Korrelaatiokertoimien matriisi on valmis, ja sen pitäisi näyttää seuraavassa jaksossa esitetyn kaltaiselta.
Korrelaatioanalyysin tulosten tulkinta
Excelin korrelaatiomatriisista löydät kertoimet rivien ja sarakkeiden leikkauspisteistä. Jos sarakkeen ja rivin koordinaatit ovat samat, tuloksena on arvo 1.
Yllä olevassa esimerkissä olemme kiinnostuneita tietämään riippuvaisen muuttujan (myytyjen lämmittimien määrä) ja kahden riippumattoman muuttujan (kuukausittainen keskilämpötila ja mainoskustannukset) välisen korrelaation. Tarkastelemme siis vain näiden rivien ja sarakkeiden leikkauspisteessä olevia lukuja, jotka on korostettu alla olevassa kuvakaappauksessa:
Negatiivinen kerroin -0,97 (pyöristettynä kahteen desimaaliin) osoittaa, että kuukausittaisen lämpötilan ja lämmittimien myynnin välillä on vahva käänteinen korrelaatio - kun lämpötila nousee, lämmittimiä myydään vähemmän.
Positiivinen kerroin 0,97 (pyöristettynä kahteen desimaaliin) osoittaa, että mainosbudjetin ja myynnin välillä on vahva suora yhteys - mitä enemmän rahaa käytetään mainontaan, sitä suurempi on myynti.
Kuinka tehdä moninkertainen korrelaatioanalyysi Excelissä kaavojen avulla?
Korrelaatiotaulukon rakentaminen Data Analysis -työkalulla on helppoa. Kyseinen matriisi on kuitenkin staattinen, eli korrelaatioanalyysi on suoritettava uudelleen aina, kun lähdetiedot muuttuvat.
Hyvä uutinen on se, että voit helposti rakentaa samanlaisen korrelaatiotaulukon itse, ja tämä matriisi päivittyy automaattisesti jokaisen lähdearvojen muutoksen yhteydessä.
Käytä tätä yleistä kaavaa, jotta se voidaan tehdä:
CORREL(OFFSET( ensimmäinen_muuttuja_alue , 0, ROWS($1:1)-1), OFFSET( ensimmäinen_muuttuja_alue , 0, SARAKKEET($A:A)-1)))Tärkeä huomautus: Jotta kaava toimisi, sinun on lukittava ensimmäinen muuttuja-alue käyttämällä absoluuttisia soluviittauksia.
Meidän tapauksessamme ensimmäinen muuttuja-alue on $B$2:$B$13 (huomaa $-merkki, joka lukitsee viittauksen), ja korrelaatiokaavamme on seuraavanlainen:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
Kun kaava on valmis, rakennetaan korrelaatiomatriisi:
- Kirjoita matriisin ensimmäiselle riville ja ensimmäiseen sarakkeeseen muuttujien nimikkeet samassa järjestyksessä kuin ne näkyvät lähdetaulukossasi (katso alla oleva kuvakaappaus).
- Syötä yllä oleva kaava vasemmanpuoleisimpaan soluun (meidän tapauksessamme B16).
- Vedä kaavaa alaspäin ja oikealle kopioidaksesi sen niin monelle riville ja sarakkeelle kuin tarvitaan (esimerkissämme 3 riviä ja 3 saraketta).
Tuloksena on seuraava matriisi, jossa on useita korrelaatiokertoimia. Huomaa, että kaavan palauttamat kertoimet ovat täsmälleen samat kuin Excelin edellisessä esimerkissä tuottamat kertoimet (olennaiset kertoimet on korostettu):
Miten tämä kaava toimii
Kuten jo tiedät, Excelin CORREL-funktio palauttaa korrelaatiokertoimen kahdelle määrittelemällesi muuttujajoukolle. Tärkein haaste on antaa sopivat vaihteluvälit matriisin vastaaviin soluihin. Tätä varten syötät kaavaan vain ensimmäisen muuttujan vaihteluvälin ja käytät seuraavia funktioita tarvittavien mukautusten tekemiseen:
- OFFSET - Palauttaa alueen, joka on tietty määrä rivejä ja sarakkeita määritetystä alueesta.
- ROWS ja COLUMNS - palauttavat alueen rivien ja sarakkeiden lukumäärän. Meidän korrelaatiokaavassamme molempia käytetään yhteen tarkoitukseen - saadaan sarakkeiden lukumäärä, joka siirretään aloitusalueesta. Tämä saavutetaan käyttämällä fiksusti absoluuttisia ja suhteellisia viittauksia.
Logiikan ymmärtämiseksi katsotaan, miten kaava laskee yllä olevassa kuvakaappauksessa korostetut kertoimet.
Tutkitaan ensin kaavaa B18, jolla löydetään korrelaatio kuukausittaisen lämpötilan (B2:B13) ja myytyjen lämmittimien (D2:D13) välillä:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
Ensimmäisessä OFFSET-funktiossa ROWS($1:1) on muuttunut ROWS($1:3) -koordinaatiksi, koska toinen koordinaatti on suhteellinen, joten se muuttuu sen rivin suhteellisen sijainnin perusteella, johon kaava kopioidaan (2 riviä alaspäin). Näin ollen ROWS() palauttaa arvon 3, josta vähennämme arvon 1 ja saamme alueen, joka on 2 saraketta lähdealueen oikealla puolella, eli $D$2:$D$13 (lämmittimen myynti).
Toinen OFFSET ei muuta määritettyä aluetta $B$2:$B$13 (lämpötila), koska COLUMNS($A:A)-1 palauttaa nollan.
Tämän seurauksena pitkä kaavamme muuttuu yksinkertaiseksi CORREL($D$2:$D$13, $B$2:$B$13) ja palauttaa juuri haluamamme kertoimen.
Kohdassa C18 oleva kaava, joka laskee korrelaatiokertoimen mainoskustannuksille (C2:C13) ja myynnille (D2:D13), toimii samalla tavalla:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1)))
Ensimmäinen OFFSET-funktio on täysin sama kuin edellä kuvattu, ja se palauttaa alueen $D$2:$D$13 (lämmittimen myynti).
Toisessa OFFSETissä COLUMNS($A:A)-1 muuttuu COLUMNS($A:B)-1:ksi, koska olemme kopioineet kaavan 1 sarakkeen oikealle. Näin ollen OFFSET saa tulokseksi alueen, joka on 1 sarakkeen verran lähdealueen oikealla puolella, eli $C$2:$C$13 (mainoskustannukset).
Kuinka piirtää korrelaatiokuvaaja Excelissä
Kun teet korrelaatioita Excelissä, paras tapa saada visuaalinen esitys tietojen välisistä suhteista on piirtää hajontakuvio a:lla trendiviiva Näin:
- Valitse kaksi saraketta, joissa on numeerisia tietoja, mukaan lukien sarakkeiden otsikot. Sarakkeiden järjestys on tärkeä: sarakkeen itsenäinen muuttujan on oltava vasemmassa sarakkeessa, koska tämä sarake piirretään x-akselille; muuttuja riippuvainen muuttujan pitäisi olla oikeassa sarakkeessa, koska se piirretään y-akselille.
- On Inset välilehdellä, kohdassa Keskustelut ryhmää, napsauta Scatter Tämä lisää välittömästi XY-pistekaavion työarkkiin.
- Napsauta hiiren oikealla painikkeella mitä tahansa datapistettä kaaviossa ja valitse Lisää trendiviiva... kontekstivalikosta.
Yksityiskohtaiset vaiheittaiset ohjeet löydät osoitteesta:
- Miten luoda hajontakuvio Excelissä
- Kuinka lisätä trendiviiva Excel-kaavioon
Esimerkkiaineistomme osalta korrelaatiokuviot näyttävät alla olevan kuvan mukaisilta. Lisäksi näytimme R-ruutuarvon, jota kutsutaan myös nimellä Määrityskerroin Tämä arvo osoittaa, kuinka hyvin trendiviiva vastaa dataa - mitä lähempänä R2 on 1:tä, sitä paremmin se sopii dataan.
Voit helposti laskea korrelaatiokertoimen hajontakuvassa näkyvän R2-arvon perusteella:
- Parempaa tarkkuutta saat Excelin näyttämään enemmän numeroita R-kvartiilin arvossa kuin se oletusarvoisesti näyttää.
- Napsauta kaavion R2-arvoa, valitse se hiirellä ja kopioi se painamalla Ctrl + C.
- Hanki R2:n neliöjuuri joko käyttämällä SQRT-funktiota tai korottamalla kopioitu R2-arvo potenssiin 0,5.
Esimerkiksi toisen kuvaajan R2-arvo on 0,9174339392. Voit siis löytää korrelaatiokertoimen seuraavasti Mainonta ja Myydyt lämmittimet jollakin näistä kaavoista:
=SQRT(0.9174339392)
=0.9174339392^0.5
Kuten voitte varmistua, tällä tavoin lasketut kertoimet ovat täysin samansuuntaisia kuin edellisissä esimerkeissä havaitut korrelaatiokertoimet, lukuun ottamatta merkkiä :
Mahdolliset ongelmat korrelaation kanssa Excelissä
The Pearsonin tuotehetken korrelaatio paljastaa vain lineaarinen Tämä tarkoittaa, että muuttujasi voivat olla voimakkaasti yhteydessä toisiinsa toisella, kaarevalla tavalla, ja silti korrelaatiokerroin voi olla yhtä suuri tai lähellä nollaa.
Pearsonin korrelaatio ei pysty erottamaan toisistaan riippuvainen ja itsenäinen Kun esimerkiksi käytimme CORREL-funktiota löytääksemme kuukausittaisen keskilämpötilan ja myytyjen lämmittimien määrän välisen yhteyden, saimme kertoimeksi -0,97, mikä osoittaa korkeaa negatiivista korrelaatiota. Voit kuitenkin vaihtaa muuttujia ja saada saman tuloksen. Joku voi siis päätellä, että suurempi lämmittimien myynti aiheuttaa lämpötilan laskun, mikä ei tietenkään ole mitään mieltä.Kun suoritat korrelaatioanalyysiä Excelissä, ole siis tietoinen toimittamistasi tiedoista.
Lisäksi Pearsonin korrelaatio on hyvin herkkä seuraaville tekijöille. outliers Jos sinulla on yksi tai useampi datapiste, jotka poikkeavat suuresti muusta datasta, saatat saada vääristyneen kuvan muuttujien välisestä suhteesta. Tällöin sinun olisi viisasta käyttää Spearmanin rank-korrelaatiota sen sijaan.
Näin korrelaatio tehdään Excelissä. Jos haluat tutustua tarkemmin tässä oppaassa käsiteltyihin esimerkkeihin, voit ladata alla olevan esimerkkityökirjan. Kiitos lukemisesta ja toivottavasti tapaamme blogissamme ensi viikolla!
Harjoitustyökirja
Laske korrelaatio Excelissä (.xlsx-tiedosto)