Innholdsfortegnelse
Opplæringen forklarer det grunnleggende om korrelasjon i Excel, viser hvordan man beregner en korrelasjonskoeffisient, bygger en korrelasjonsmatrise og tolker resultatene.
En av de enkleste statistiske beregningene du kan gjøre i Excel er korrelasjon. Selv om det er enkelt, er det veldig nyttig for å forstå relasjonene mellom to eller flere variabler. Microsoft Excel gir alle nødvendige verktøy for å kjøre korrelasjonsanalyse, du trenger bare å vite hvordan du bruker dem.
Korrelasjon i Excel - det grunnleggende
Korrelasjon er et mål som beskriver styrken og retningen til en sammenheng mellom to variabler. Det er vanlig å bruke i statistikk, økonomi og samfunnsvitenskap for budsjetter, forretningsplaner og lignende.
Metoden som brukes for å studere hvor nært variablene henger sammen kalles korrelasjonsanalyse .
Her er et par eksempler på sterk korrelasjon:
- Antall kalorier du spiser og vekten din (positiv korrelasjon)
- Temperaturen ute og varmeregningene dine ( negativ korrelasjon)
Og her er eksemplene på data som har svak eller ingen korrelasjon:
- Kattens navn og favorittmaten deres
- Fargen på øynene dine og høyden din
En viktig ting å forstå om korrelasjon er at den bare viser hvor nært beslektede to variabler er. Korrelasjon innebærer imidlertid ikkefra et spesifisert område.
For bedre å forstå logikken, la oss se hvordan formelen beregner koeffisientene som er fremhevet i skjermbildet ovenfor.
La oss først undersøk formelen i B18, som finner korrelasjon mellom den månedlige temperaturen (B2:B13) og varmeovner som selges (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
I den første OFFSET-funksjonen, ROWS($1: 1) har transformert til ROWS($1:3) fordi den andre koordinaten er relativ, så den endres basert på den relative plasseringen av raden der formelen er kopiert (2 rader ned). Dermed returnerer ROWS() 3, som vi trekker 1 fra, og får et område som er 2 kolonner til høyre for kildeområdet, dvs. $D$2:$D$13 (varmeovnssalg).
second OFFSET endrer ikke det spesifiserte området $B$2:$B$13 (temperatur) fordi COLUMNS($A:A)-1 returnerer null.
Som et resultat blir vår lange formel til en enkel CORREL( $D$2:$D$13, $B$2:$B$13) og returnerer nøyaktig koeffisienten vi ønsker.
Formelen i C18 som beregner en korrelasjonskoeffisient for annonseringskostnad (C2:C13) og salg ( D2:D13) fungerer på lignende måte:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
Den første OFFSET-funksjonen erabsolutt det samme som beskrevet ovenfor, og returnerer området på $D$2:$D$13 (varmeovnssalg).
I den andre OFFSET endres COLUMNS($A:A)-1 til COLUMNS($A: B)-1 fordi vi har kopiert formel 1-kolonnen til høyre. Følgelig får OFFSET et område som er 1 kolonne til høyre for kildeområdet, dvs. $C$2:$C$13 (annonseringskostnad).
Hvordan plotte en korrelasjonsgraf i Excel
Når du gjør korrelasjon i Excel, er den beste måten å få en visuell representasjon av relasjonene mellom dataene dine på å tegne et spredningsplott med en trendlinje . Slik gjør du det:
- Velg to kolonner med numeriske data, inkludert kolonneoverskrifter. Rekkefølgen på kolonnene er viktig: uavhengig -variabelen skal være i venstre kolonne da denne kolonnen skal plottes på x-aksen; den avhengige -variabelen skal være i høyre kolonne, da den vil bli plottet på y-aksen.
- På Innsett -fanen, i Chatter gruppe, klikker du på Scatter diagramikonet. Dette vil umiddelbart sette inn et XY-spredningsdiagram i regnearket ditt.
- Høyreklikk på et datapunkt i diagrammet og velg Legg til trendlinje... fra hurtigmenyen.
For detaljerte trinnvise instruksjoner, vennligst se:
- Hvordan lage spredningsplott i Excel
- Hvordan legge til trendlinje i Excel-diagram
For vårt eksempeldatasett ser korrelasjonsgrafene ut som vist i bildet nedenfor.I tillegg viste vi R-kvadratverdi, også kalt bestemmelseskoeffisienten . Denne verdien angir hvor godt trendlinjen tilsvarer dataene - jo nærmere R2 til 1, jo bedre tilpasning.
Fra R2-verdien som vises på spredningsdiagrammet ditt, kan du enkelt beregne korrelasjonskoeffisienten:
- For bedre nøyaktighet, få Excel til å vise flere sifre i R-kvadratverdien enn det gjør som standard.
- Klikk R2-verdien på diagrammet, velg den med musen og trykk Ctrl + C for å kopiere den.
- Få en kvadratrot av R2 enten ved å bruke SQRT-funksjonen eller ved å heve den kopierte R2-verdien til potensen 0,5.
For eksempel, R2-verdien i den andre grafen er 0,9174339392. Så du kan finne korrelasjonskoeffisienten for Reklame og solgte varmeovner med en av disse formlene:
=SQRT(0.9174339392)
=0.9174339392^0.5
Som du kan være sikker på, er koeffisientene beregnet på denne måten helt i tråd med korrelasjonskoeffisientene funnet i de foregående eksemplene, unntatt tegnet :
Potensielle problemer med korrelasjon i Excel
Pearson Product Moment Correlation avslører bare en lineær sammenheng mellom de to variablene. Det betyr at variablene dine kan være sterkt relatert på en annen, krumlinjet måte og fortsatt ha korrelasjonskoeffisienten lik eller nær null.
Pearson-korrelasjonen er ikke i stand til åskille avhengige og uavhengige variabler. Når vi for eksempel bruker CORREL-funksjonen for å finne assosiasjonen mellom en gjennomsnittlig månedlig temperatur og antall solgte varmeovner, fikk vi en koeffisient på -0,97, som indikerer en høy negativ korrelasjon. Du kan imidlertid bytte rundt variablene og få samme resultat. Så noen kan konkludere med at høyere salg av varmeovner får temperaturen til å falle, noe som åpenbart ikke gir mening. Derfor, når du kjører korrelasjonsanalyse i Excel, vær oppmerksom på dataene du leverer.
I tillegg er Pearson-korrelasjonen svært sensitiv for utliggere . Hvis du har ett eller flere datapunkter som skiller seg sterkt fra resten av dataene, kan du få et forvrengt bilde av forholdet mellom variablene. I dette tilfellet gjør du lurt å bruke Spearman-rangkorrelasjonen i stedet.
Slik gjør du korrelasjon i Excel. For å se nærmere på eksemplene som er diskutert i denne opplæringen, er du velkommen til å laste ned vår eksempelarbeidsbok nedenfor. Jeg takker for at du leser og håper å se deg på bloggen vår neste uke!
Øvningsarbeidsbok
Beregn korrelasjon i Excel (.xlsx-fil)
årsakssammenheng. Det faktum at endringer i en variabel er assosiert med endringer i den andre variabelen betyr ikke at den ene variabelen faktisk får den andre til å endre seg.Hvis du er interessert i å lære kausalitet og komme med spådommer, ta et skritt fremover og utføre lineær regresjonsanalyse.
Korrelasjonskoeffisient i Excel - tolkning av korrelasjon
Det numeriske målet på assosiasjonsgraden mellom to kontinuerlige variabler kalles korrelasjonskoeffisienten ( r).
Koeffisienten er alltid mellom -1 og 1 og den måler både styrken og retningen til det lineære forholdet mellom variablene.
Styrke
Jo større den absolutte verdien av koeffisienten, desto sterkere er forholdet:
- Ekstremverdiene på -1 og 1 indikerer en perfekt lineær sammenheng når alle datapunktene faller på en linje. I praksis er en perfekt korrelasjon, enten positiv eller negativ, sjelden observert.
- En koeffisient på 0 indikerer ingen lineær sammenheng mellom variablene. Dette er det du sannsynligvis vil få med to sett med tilfeldige tall.
- Verdier mellom 0 og +1/-1 representerer en skala av svake, moderate og sterke relasjoner. Etter hvert som r kommer nærmere enten -1 eller 1, øker styrken på forholdet.
Retning
Koeffisiensttegnet (pluss eller minus) indikerer retning avforhold.
- Positive koeffisienter representerer direkte korrelasjon og produserer en skråning oppover på en graf - ettersom en variabel øker, øker den andre, og omvendt.
- Negative koeffisienter representerer invers korrelasjon og produserer en nedoverhelling på en graf - når en variabel øker, har den andre variabelen en tendens til å reduseres.
For bedre forståelse, vennligst ta en titt på følgende korrelasjonsgrafer:
- En koeffisient på 1 betyr en perfekt positiv sammenheng - når en variabel øker, øker den andre proporsjonalt.
- En koeffisient på -1 betyr en perfekt negativ sammenheng - når en variabel øker, reduseres den andre proporsjonalt.
- En koeffisient på 0 betyr ingen sammenheng mellom to variabler - datapunktene er spredt over hele grafen.
Pearson-korrelasjon
I statistikk måler de flere typer korrelasjon avhengig av type data du jobber med. I denne opplæringen vil vi fokusere på den vanligste.
Pearson Correlation , det fulle navnet er Pearson Product Moment Correlation (PPMC), brukes til å evaluere lineære forhold mellom data når en endring i en variabel er assosiert med en proporsjonal endring i den andre variabelen. Enkelt sagt svarer Pearson-korrelasjonen på spørsmålet: Kan dataene representeres på enlinje?
I statistikk er det den mest populære korrelasjonstypen, og hvis du har å gjøre med en "korrelasjonskoeffisient" uten ytterligere kvalifisering, er det mest sannsynlig at det er Pearson.
Her er mest brukte formelen for å finne Pearson-korrelasjonskoeffisienten, også kalt Pearsons R :
I perioder kan du støte på to andre formler for å beregne prøvekorrelasjonskoeffisienten (r) og populasjonskorrelasjonskoeffisienten (ρ).
Hvordan gjøre Pearson-korrelasjon i Excel
Å beregne Pearson-korrelasjonskoeffisienten for hånd innebærer ganske mye matematikk . Heldigvis har Microsoft Excel gjort ting veldig enkelt. Avhengig av datasettet og målet ditt, står du fritt til å bruke en av følgende teknikker:
- Finn Pearson-korrelasjonskoeffisienten med CORREL-funksjonen.
- Lag en korrelasjonsmatrise ved å utfører dataanalyse.
- Finn flere korrelasjonskoeffisienter med en formel.
- Plott en korrelasjonsgraf for å få den visuelle representasjonen av dataforholdet.
Hvordan beregne korrelasjonskoeffisient i Excel
For å beregne en korrelasjonskoeffisient for hånd, må du bruke denne lange formelen. For å finne korrelasjonskoeffisient i Excel, bruk CORREL- eller PEARSON-funksjonen og få resultatet på en brøkdel av et sekund.
Excel CORREL-funksjonen
CORREL-funksjonen returnererPearson korrelasjonskoeffisient for to sett med verdier. Syntaksen er veldig enkel og grei:
CORREL(array1, array2)Hvor:
- Array1 er det første verdiområdet.
- Array2 er det andre området med verdier.
De to matrisene skal ha samme lengde.
Forutsatt at vi har et sett med uavhengige variabler ( x ) i B2:B13 og avhengige variabler (y) i C2:C13, går vår korrelasjonskoeffisientformel som følger:
=CORREL(B2:B13, C2:C13)
Eller vi kan bytte områdene og fortsatt få samme resultat:
=CORREL(C2:C13, B2:B13)
Uansett, formelen viser en sterk negativ korrelasjon (ca -0,97) mellom gjennomsnittlig månedlig temperatur og antall solgte varmeovner:
3 ting du bør vite om CORREL-funksjonen i Excel
For å beregne korrelasjonskoeffisienten i Excel på en vellykket måte, husk disse 3 enkle fakta:
- Hvis én eller flere celler i en matrise inneholder tekst, logiske verdier eller tomme felter, blir slike celler ignorert; celler med nullverdier beregnes.
- Hvis de medfølgende matrisene har forskjellig lengde, returneres en #N/A-feil.
- Hvis en av matrisene er tomme eller hvis standardavviket på deres verdier er lik null, en #DIV/0! feil oppstår.
Excel PEARSON-funksjon
PEARSON-funksjonen i Excel gjør det samme - beregner Pearson-produktmomentkorrelasjonskoeffisienten.
PEARSON(matrise1,array2)Hvor:
- Array1 er et område med uavhengige verdier.
- Array2 er et område med avhengige verdier.
Fordi PEARSON og CORREL begge beregner Pearsons lineære korrelasjonskoeffisient, bør resultatene deres stemme overens, og det gjør de vanligvis i nyere versjoner av Excel 2007 til og med Excel 2019.
I Excel 2003 og tidligere versjoner, men PEARSON-funksjonen kan vise noen avrundingsfeil. Derfor, i eldre versjoner, anbefales det å bruke CORREL fremfor PEARSON.
På vårt eksempeldatasett viser begge funksjonene de samme resultatene:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Hvordan lage en korrelasjonsmatrise i Excel med dataanalyse
Når du skal teste sammenhenger mellom mer enn to variabler, er det fornuftig å konstruere en korrelasjonsmatrise, som noen ganger kalles multippelkorrelasjonskoeffisient .
korrelasjonsmatrisen er en tabell som viser korrelasjonskoeffisientene mellom variablene i skjæringspunktet mellom de tilsvarende radene og kolonnene.
Korrelasjonsmatrisen i Excel er bygget ved hjelp av Korrelasjon -verktøyet fra Analysis ToolPak -tillegget. Dette tillegget er tilgjengelig i alle versjoner av Excel 2003 til og med Excel 2019, men er ikke aktivert som standard. Hvis du ikke har aktivert det ennå, gjør du dette nå ved å følge trinnene beskrevet i Hvordan aktivere Data Analysis ToolPak i Excel.
Medverktøyene for dataanalyse lagt til i Excel-båndet ditt, er du forberedt på å kjøre korrelasjonsanalyse:
- I øvre høyre hjørne av Data -fanen > Analyse gruppe, klikk på Dataanalyse -knappen.
- I dialogboksen Dataanalyse velger du Korrelasjon og klikker OK.
- I boksen Korrelasjon konfigurerer du parameterne på denne måten:
- Klikk i boksen Inndataområde og velg området med kildedataene dine, inkludert kolonneoverskrifter (B1:D13 i vårt tilfelle).
- I delen Gruppert etter må du kontrollere at radioboksen Kolonner er valgt (gitt at kildedataene dine er gruppert i kolonner).
- Velg avkrysningsboksen Etiketter i første rad hvis det valgte området inneholder kolonneoverskrifter.
- Velg ønsket utdataalternativ. For å ha matrisen i samme ark, velg Utdataområde og spesifiser referansen til cellen lengst til venstre som matrisen skal sendes ut i (A15 i dette eksemplet).
Når du er ferdig, klikk på OK -knappen:
Matrisen din med korrelasjonskoeffisienter er ferdig og skal se omtrent ut som vist i neste avsnitt.
Tolke resultater fra korrelasjonsanalyse
I Excel-korrelasjonsmatrisen kan du finne koeffisientene i skjæringspunktet mellom rader og kolonner. Hvis kolonne- og radkoordinatene er de samme, vises verdien 1.
I ovenståendeFor eksempel er vi interessert i å vite sammenhengen mellom den avhengige variabelen (antall solgte varmeovner) og to uavhengige variabler (gjennomsnittlig månedlig temperatur og annonseringskostnader). Så vi ser bare på tallene i skjæringspunktet mellom disse radene og kolonnene, som er uthevet i skjermbildet nedenfor:
Den negative koeffisienten på -0,97 (avrundet til 2 desimaler) viser en sterk invers korrelasjon mellom den månedlige temperaturen og varmeovnssalget - etter hvert som temperaturen vokser, selges færre varmeovner.
Den positive koeffisienten på 0,97 (avrundet til 2 desimaler) indikerer en sterk direkte sammenheng mellom annonsebudsjett og salg - jo mer penger du bruker på annonsering, jo høyere salg.
Hvordan gjøre flere korrelasjonsanalyser i Excel med formler
Det er enkelt å bygge korrelasjonstabellen med verktøyet Dataanalyse. Den matrisen er imidlertid statisk, noe som betyr at du må kjøre korrelasjonsanalyse på nytt hver gang kildedataene endres.
Den gode nyheten er at du enkelt kan bygge en lignende korrelasjonstabell selv, og den matrisen vil oppdateres automatisk med hver endring i kildeverdiene.
For å få det gjort, bruk denne generiske formelen:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))Viktig merknad! For at formelen skal fungere, bør du låsedet første variabelområdet ved å bruke absolutte cellereferanser.
I vårt tilfelle er det første variabelområdet $B$2:$B$13 (legg merke til $-tegnet som låser referansen), og vår korrelasjonsformel tar dette form:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
Med formelen klar, la oss konstruere en korrelasjonsmatrise:
- I den første raden og den første kolonnen i matrisen skriver du inn variablene' etiketter i samme rekkefølge som de vises i kildetabellen din (se skjermbildet nedenfor).
- Skriv inn formelen ovenfor i cellen lengst til venstre (B16 i vårt tilfelle).
- Dra formelen ned og til høyre for å kopiere den til så mange rader og kolonner som er nødvendig (3 rader og 3 kolonner i vårt eksempel).
Som et resultat har vi følgende matrise med multippelkorrelasjon koeffisienter. Vær oppmerksom på at koeffisientene som returneres av formelen vår er nøyaktig de samme som utdata fra Excel i forrige eksempel (de relevante er uthevet):
Hvordan denne formelen fungerer
Som du allerede vet, Excel CORREL-funksjonen returnerer korrelasjonskoeffisienten for to sett med variabler som du angir. Hovedutfordringen er å levere de passende områdene i de tilsvarende cellene i matrisen. For dette angir du kun det første variabelområdet i formelen og bruker følgende funksjoner for å gjøre de nødvendige justeringene:
- OFFSET - returnerer et område som er et gitt antall rader og kolonner