Indholdsfortegnelse
Vejledningen forklarer det grundlæggende om korrelation i Excel, viser hvordan man beregner en korrelationskoefficient, opbygger en korrelationsmatrix og fortolker resultaterne.
En af de enkleste statistiske beregninger, som du kan foretage i Excel, er korrelation. Selv om den er simpel, er den meget nyttig til at forstå sammenhængen mellem to eller flere variabler. Microsoft Excel indeholder alle de nødvendige værktøjer til at udføre korrelationsanalyser, du skal bare vide, hvordan du bruger dem.
Korrelation i Excel - det grundlæggende
Korrelation er et mål, der beskriver styrken og retningen af en sammenhæng mellem to variabler. Det bruges ofte i statistik, økonomi og samfundsvidenskab til budgetter, forretningsplaner og lignende.
Den metode, der anvendes til at undersøge, hvor tæt variablerne er forbundet, kaldes korrelationsanalyse .
Her er et par eksempler på stærk korrelation:
- Antallet af kalorier, du spiser, og din vægt (positiv korrelation)
- Temperaturen udenfor og dine varmeregninger (negativ korrelation)
Og her er eksempler på data, der har en svag eller ingen sammenhæng:
- Din kats navn og dens yndlingsfoder
- Farven på dine øjne og din højde
En vigtig ting at forstå ved korrelation er, at den kun viser, hvor tæt to variabler er forbundet. Korrelation indebærer imidlertid ikke årsagssammenhæng. Det forhold, at ændringer i en variabel er forbundet med ændringer i den anden variabel, betyder ikke, at den ene variabel faktisk forårsager ændringer i den anden variabel.
Hvis du er interesseret i at lære kausalitet at kende og lave forudsigelser, skal du tage et skridt fremad og udføre lineær regressionsanalyse.
Korrelationskoefficient i Excel - fortolkning af korrelation
Det numeriske mål for graden af sammenhæng mellem to kontinuerte variabler kaldes den korrelationskoefficient (r).
Koefficientværdien ligger altid mellem -1 og 1 og måler både styrken og retningen af den lineære sammenhæng mellem variablerne.
Styrke
Jo større koefficientens absolutte værdi er, jo stærkere er sammenhængen:
- Ekstremværdierne -1 og 1 angiver en perfekt lineær sammenhæng, når alle datapunkterne falder på en linje. I praksis observeres der sjældent en perfekt korrelation, enten positiv eller negativ, i praksis.
- En koefficient på 0 angiver, at der ikke er nogen lineær sammenhæng mellem variablerne. Det er det, du sandsynligvis vil få med to sæt tilfældige tal.
- Værdier mellem 0 og +1/-1 repræsenterer en skala med svage, moderate og stærke forhold. Som r kommer tættere på enten -1 eller 1, bliver sammenhængen stærkere.
Retning
Koefficienttegnet (plus eller minus) angiver retningen af forholdet.
- Positiv koefficienter repræsenterer en direkte korrelation og giver en opadgående hældning på en graf - når den ene variabel stiger, stiger den anden også og omvendt.
- Negativ koefficienter repræsenterer omvendt korrelation og giver en nedadgående hældning på en graf - når den ene variabel stiger, har den anden variabel tendens til at falde.
For at få en bedre forståelse kan du se på følgende korrelationsgrafer:
- En koefficient på 1 betyder en perfekt positiv sammenhæng - når den ene variabel stiger, stiger den anden proportionalt.
- En koefficient på -1 betyder en perfekt negativ sammenhæng - når den ene variabel stiger, falder den anden proportionalt.
- En koefficient på 0 betyder, at der ikke er nogen sammenhæng mellem to variabler - datapunkterne er spredt ud over hele grafen.
Pearson-korrelation
I statistik måler man flere forskellige typer korrelation afhængigt af typen af data, man arbejder med. I denne vejledning vil vi fokusere på den mest almindelige type korrelation.
Pearson-korrelation , det fulde navn er den Pearson Product Moment Korrelation (PPMC), anvendes til at evaluere lineær sammenhænge mellem data, når en ændring i den ene variabel er forbundet med en proportional ændring i den anden variabel. I enkle vendinger svarer Pearsonkorrelationen på spørgsmålet: Kan dataene repræsenteres på en linje?
I statistik er det den mest populære korrelationstype, og hvis du har at gøre med en "korrelationskoefficient" uden yderligere kvalificering, er det højst sandsynligt Pearson-koefficienten.
Her er den mest almindeligt anvendte formel til at finde Pearson-korrelationskoefficienten, også kaldet Pearson's R :
Til tider kan du støde på to andre formler til at beregne den korrelationskoefficient for stikprøven (r) og befolkningskorrelationskoefficient (ρ).
Hvordan man laver Pearson-korrelation i Excel
At beregne Pearson-korrelationskoefficienten i hånden kræver en hel del matematik. Heldigvis har Microsoft Excel gjort tingene meget enkle. Afhængigt af dit datasæt og dit mål kan du frit anvende en af følgende teknikker:
- Find Pearson-korrelationskoefficienten med CORREL-funktionen.
- Lav en korrelationsmatrix ved at udføre dataanalyse.
- Find flere korrelationskoefficienter med en formel.
- Udarbejd en korrelationsgraf for at få en visuel repræsentation af dataforholdet.
Sådan beregnes korrelationskoefficienten i Excel
Hvis du vil beregne en korrelationskoefficient i hånden, skal du bruge denne lange formel. Hvis du vil finde en korrelationskoefficient i Excel, kan du bruge CORREL- eller PEARSON-funktionen og få resultatet på en brøkdel af et sekund.
Excel CORREL-funktionen
CORREL-funktionen returnerer Pearson-korrelationskoefficienten for to sæt af værdier. Dens syntaks er meget enkel og ligetil:
CORREL(array1, array2)Hvor:
- Array1 er det første interval af værdier.
- Array2 er det andet interval af værdier.
De to arrays skal have samme længde.
Hvis vi antager, at vi har et sæt af uafhængige variabler ( x ) i B2:B13 og afhængige variabler (y) i C2:C13, lyder vores formel for korrelationskoefficienten som følger:
=CORREL(B2:B13, C2:C13)
Eller vi kan bytte om på intervallerne og stadig få det samme resultat:
=CORREL(C2:C13, B2:B13)
Uanset hvad, viser formlen en stærk negativ korrelation (ca. -0,97) mellem den gennemsnitlige månedlige temperatur og antallet af solgte varmeapparater:
3 ting, du bør vide om CORREL-funktionen i Excel
Hvis du vil beregne korrelationskoefficienten i Excel med succes, skal du huske disse 3 enkle fakta:
- Hvis en eller flere celler i et array indeholder tekst, logiske værdier eller tomme felter, ignoreres sådanne celler; celler med nulværdier beregnes.
- Hvis de leverede arrays har forskellige længder, returneres en #N/A-fejl.
- Hvis et af arraysene er tomt, eller hvis standardafvigelsen af deres værdier er lig med nul, opstår der en #DIV/0! fejl.
Excel PEARSON-funktion
PEARSON-funktionen i Excel gør det samme - den beregner Pearson Product Moment Correlation-koefficienten.
PEARSON(array1, array2)Hvor:
- Array1 er et interval af uafhængige værdier.
- Array2 er et interval af afhængige værdier.
Da PEARSON og CORREL begge beregner den lineære Pearson-korrelationskoefficient, bør deres resultater stemme overens, og det gør de generelt i nyere versioner af Excel 2007 til og med Excel 2019.
I Excel 2003 og tidligere versioner kan PEARSON-funktionen imidlertid vise nogle afrundingsfejl. I ældre versioner anbefales det derfor at bruge CORREL frem for PEARSON.
På vores datasæt viser begge funktioner de samme resultater:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Hvordan man laver en korrelationsmatrix i Excel med Dataanalyse
Når du har brug for at teste sammenhænge mellem mere end to variabler, giver det mening at konstruere en korrelationsmatrix, som nogle gange kaldes multipel korrelationskoefficient .
korrelationsmatrix er en tabel, der viser korrelationskoefficienterne mellem variablerne i skæringspunktet mellem de tilsvarende rækker og kolonner.
Korrelationsmatrixen i Excel er opbygget ved hjælp af Korrelation værktøj fra den Analyse ToolPak Denne tilføjelse er tilgængelig i alle versioner af Excel 2003 til Excel 2019, men er ikke aktiveret som standard. Hvis du ikke har aktiveret den endnu, skal du gøre det nu ved at følge de trin, der er beskrevet i Sådan aktiveres Data Analysis ToolPak i Excel.
Med dataanalyseværktøjerne tilføjet til Excel-båndet er du klar til at udføre korrelationsanalyser:
- I øverste højre hjørne af Data faneblad> Analyse gruppe, skal du klikke på Analyse af data knap.
- I den Analyse af data dialogboksen, skal du vælge Korrelation og klik på OK.
- I den Korrelation boksen, konfigurer parametrene på denne måde:
- Klik på i Indgangsområde og vælg området med dine kildedata, herunder kolonneoverskrifter (B1:D13 i vores tilfælde).
- I den Grupperet efter sektion, skal du sikre, at den Kolonner er markeret (hvis dine kildedata er grupperet i kolonner).
- Vælg den Etiketter i første række afkrydsningsfeltet, hvis det valgte område indeholder kolonneoverskrifter.
- Vælg den ønskede outputmulighed. Hvis du vil have matrixen i samme ark, skal du vælge Udgangsområde og angiv referencen til den celle længst til venstre, hvor matrixen skal udskrives (A15 i dette eksempel).
Når du er færdig, skal du klikke på OK knap:
Din matrix af korrelationskoefficienter er færdig og bør se ud som vist i næste afsnit.
Fortolkning af korrelationsanalyseresultater
I din Excel-korrelationsmatrix kan du finde koefficienterne i skæringspunktet mellem rækker og kolonner. Hvis kolonne- og rækkekoordinaterne er de samme, bliver værdien 1 angivet.
I ovenstående eksempel er vi interesseret i at kende sammenhængen mellem den afhængige variabel (antal solgte varmeapparater) og to uafhængige variabler (gennemsnitlig månedlig temperatur og reklameomkostninger). Vi ser derfor kun på tallene i skæringspunktet mellem disse rækker og kolonner, som er fremhævet i skærmbilledet nedenfor:
Den negative koefficient på -0,97 (afrundet til 2 decimaler) viser en stærk omvendt sammenhæng mellem den månedlige temperatur og salget af varmeapparater - jo højere temperaturen er, desto færre varmeapparater sælges der.
Den positive koefficient på 0,97 (afrundet til 2 decimaler) viser en stærk direkte sammenhæng mellem reklamebudget og salg - jo flere penge du bruger på reklame, jo større er salget.
Sådan laver du flere korrelationsanalyser i Excel med formler
Det er nemt at opbygge korrelationstabellen med værktøjet Dataanalyse. Matrixen er imidlertid statisk, hvilket betyder, at du skal køre korrelationsanalysen på ny, hver gang kildedataene ændres.
Den gode nyhed er, at du nemt selv kan opbygge en lignende korrelationstabel, og at matrixen automatisk opdateres ved hver ændring i kildeværdierne.
For at få det gjort, skal du bruge denne generiske formel:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, COLUMNS($A:A)-1)))Vigtig bemærkning! For at formlen kan fungere, skal du låse det første variabelområde ved at bruge absolutte cellehenvisninger.
I vores tilfælde er det første variabelområde $B$2:$B$13 (bemærk $-tegnet, der låser referencen), og vores korrelationsformel har denne form:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
Når formlen er klar, kan vi nu konstruere en korrelationsmatrix:
- I den første række og første kolonne i matricen skal du skrive variablernes etiketter i samme rækkefølge, som de vises i din kildetabel (se skærmbilledet nedenfor).
- Indtast ovenstående formel i cellen længst til venstre (B16 i vores tilfælde).
- Træk formlen nedad og til højre for at kopiere den til så mange rækker og kolonner, som du har brug for (3 rækker og 3 kolonner i vores eksempel).
Resultatet er følgende matrix med flere korrelationskoefficienter. Bemærk venligst, at de koefficienter, der returneres af vores formel, er nøjagtig de samme som dem, Excel gav i det foregående eksempel (de relevante koefficienter er fremhævet):
Sådan fungerer denne formel
Som du allerede ved, returnerer Excel CORREL-funktionen korrelationskoefficienten for to sæt variabler, som du angiver. Den største udfordring er at angive de relevante intervaller i de tilsvarende celler i matricen. Til dette formål indtaster du kun det første variabelinterval i formlen og bruger de følgende funktioner til at foretage de nødvendige justeringer:
- OFFSET - returnerer et område, der er et givet antal rækker og kolonner fra et angivet område.
- ROWS og COLUMNS - returnerer henholdsvis antallet af rækker og kolonner i et område. I vores korrelationsformel bruges begge med ét formål - at få antallet af kolonner, der skal forskydes fra startområdet. Og dette opnås ved at bruge absolutte og relative referencer på en smart måde.
For bedre at forstå logikken skal vi se, hvordan formlen beregner de koefficienter, der er fremhævet i skærmbilledet ovenfor.
Lad os først undersøge formlen i B18, som viser sammenhængen mellem den månedlige temperatur (B2:B13) og de solgte varmeapparater (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1)))
I den første OFFSET-funktion er ROWS($1:1) omdannet til ROWS($1:3), fordi den anden koordinat er relativ, så den ændres på grundlag af den relative position i den række, hvor formlen kopieres (2 rækker ned). ROWS() returnerer således 3, hvorfra vi trækker 1 fra og får et område, der ligger 2 kolonner til højre for kildeområdet, dvs. $D$2:$D$13 (salg af varmeapparater).
Den anden OFFSET ændrer ikke det angivne område $B$2:$B$13 (temperatur), fordi COLUMNS($A:A)-1 returnerer nul.
Resultatet er, at vores lange formel bliver til en simpel CORREL($D$2:$D$13, $B$2:$B$13) og returnerer præcis den koefficient, vi ønsker.
Formlen i C18, der beregner en korrelationskoefficient for reklameomkostninger (C2:C13) og salg (D2:D13), fungerer på samme måde:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1)))
Den første OFFSET-funktion er fuldstændig den samme som beskrevet ovenfor og returnerer intervallet $D$2:$D$13 (salg af varmeapparater).
I den anden OFFSET ændres COLUMNS($A:A)-1 til COLUMNS($A:B)-1, fordi vi har kopieret formlen 1 kolonne til højre. OFFSET får derfor et område, der ligger 1 kolonne til højre for kildeområdet, dvs. $C$2:$C$13 (reklameomkostninger).
Sådan tegner du en korrelationsgraf i Excel
Når du laver korrelation i Excel, er den bedste måde at få en visuel repræsentation af relationerne mellem dine data på at tegne en spredningsdiagram med en trendlinje Sådan gør du:
- Vælg to kolonner med numeriske data, herunder kolonneoverskrifter. Rækkefølgen af kolonnerne er vigtig: den uafhængig variabel skal være i venstre kolonne, da denne kolonne skal plottes på x-aksen; den afhængig variablen skal være i højre kolonne, da den vil blive plottet på y-aksen.
- På den Indsat under fanen, i fanen Chats gruppe, skal du klikke på Spredning Diagram-ikonet. Dette vil straks indsætte et XY-spredningsdiagram i dit regneark.
- Højreklik på et datapunkt i diagrammet, og vælg Tilføj Trendline... fra kontekstmenuen.
Du kan finde en detaljeret trin-for-trin-vejledning på:
- Sådan oprettes et spredningsdiagram i Excel
- Sådan tilføjes trendlinje til Excel-diagram
For vores eksempeldatasæt ser korrelationsgraferne ud som vist på billedet nedenfor. Derudover viste vi R-kvadrat-værdien, også kaldet Bestemmelseskoefficient Denne værdi angiver, hvor godt tendenslinjen svarer til dataene - jo tættere R2 på 1, desto bedre overensstemmelse.
Ud fra den R2-værdi, der vises på dit spredningsdiagram, kan du nemt beregne korrelationskoefficienten:
- For at opnå større nøjagtighed kan du få Excel til at vise flere cifre i R-kvadratværdien, end det er standard.
- Klik på R2-værdien på diagrammet, vælg den med musen, og tryk på Ctrl + C for at kopiere den.
- Få en kvadratrod af R2 enten ved at bruge SQRT-funktionen eller ved at hæve den kopierede R2-værdi til 0,5 potens.
For eksempel er R2-værdien i den anden graf 0,9174339392. Så du kan finde korrelationskoefficienten for Reklame og Solgte varmeapparater med en af disse formler:
=SQRT(0,9174339392)
=0.9174339392^0.5
Som du kan se, er de koefficienter, der er beregnet på denne måde, helt i overensstemmelse med de korrelationskoefficienter, der er fundet i de foregående eksempler, undtagen tegnet :
Potentielle problemer med korrelation i Excel
Pearson Product Moment Korrelation kun afslører en lineær Det vil sige, at dine variabler kan være stærkt relateret på en anden, krum lineær måde og stadig have en korrelationskoefficient lig med eller tæt på nul.
Pearson-korrelationen er ikke i stand til at skelne afhængig og uafhængig Når vi f.eks. bruger CORREL-funktionen til at finde sammenhængen mellem en gennemsnitlig månedlig temperatur og antallet af solgte varmeapparater, får vi en koefficient på -0,97, hvilket indikerer en høj negativ korrelation. Man kan dog bytte rundt på variablerne og få det samme resultat. Så nogen kan konkludere, at et større salg af varmeapparater får temperaturen til at falde, hvilket naturligvis ikke giver nogen mening.Når du udfører korrelationsanalyser i Excel, skal du derfor være opmærksom på de data, du leverer.
Desuden er Pearson-korrelationen meget følsom over for udstikkere Hvis du har et eller flere datapunkter, der afviger meget fra resten af dataene, kan du få et forvrænget billede af forholdet mellem variablerne. I så fald er det klogt at bruge Spearman-rangkorrelationen i stedet.
Sådan gør du korrelation i Excel. Hvis du vil se nærmere på eksemplerne i denne vejledning, er du velkommen til at downloade vores prøvearbejdsmappe nedenfor. Tak for din læsning og håber at se dig på vores blog i næste uge!
Arbejdsbog til øvelser
Beregne korrelation i Excel (.xlsx-fil)