Korrelation i Excel: koefficient, matris och diagram

  • Dela Detta
Michael Brown

I handledningen förklaras grunderna för korrelation i Excel, och det visas hur man beräknar en korrelationskoefficient, bygger en korrelationsmatris och tolkar resultaten.

En av de enklaste statistiska beräkningarna som du kan göra i Excel är korrelation. Även om den är enkel är den mycket användbar för att förstå sambanden mellan två eller flera variabler. Microsoft Excel tillhandahåller alla nödvändiga verktyg för att utföra korrelationsanalyser, du behöver bara veta hur du ska använda dem.

    Korrelation i Excel - grunderna

    Korrelation är ett mått som beskriver styrkan och riktningen hos ett samband mellan två variabler. Det används ofta inom statistik, ekonomi och samhällsvetenskap för budgetar, affärsplaner och liknande.

    Den metod som används för att undersöka hur nära variablerna är relaterade kallas för Korrelationsanalys. .

    Här är några exempel på starka samband:

    • Antalet kalorier du äter och din vikt (positiv korrelation).
    • Utomhustemperaturen och dina värmeräkningar (negativ korrelation)

    Och här är exempel på uppgifter som har ett svagt eller inget samband:

    • Din katts namn och favoritmat
    • Färgen på dina ögon och din längd

    En viktig sak att förstå när det gäller korrelation är att den bara visar hur nära relaterade två variabler är. Korrelation innebär dock inte orsakssamband. Det faktum att förändringar i en variabel är förknippade med förändringar i den andra variabeln betyder inte att den ena variabeln faktiskt orsakar att den andra förändras.

    Om du är intresserad av att ta reda på kausalitet och göra förutsägelser kan du ta ett steg framåt och utföra linjär regressionsanalys.

    Korrelationskoefficient i Excel - tolkning av korrelation

    Det numeriska måttet på graden av samband mellan två kontinuerliga variabler kallas för korrelationskoefficient (r).

    Koefficientvärdet ligger alltid mellan -1 och 1 och mäter både styrkan och riktningen på det linjära sambandet mellan variablerna.

    Styrka

    Ju större koefficientens absoluta värde är, desto starkare är sambandet:

    • Extremvärdena -1 och 1 indikerar ett perfekt linjärt samband när alla datapunkter ligger på en linje. I praktiken observeras sällan en perfekt korrelation, vare sig positiv eller negativ.
    • En koefficient på 0 innebär att det inte finns något linjärt samband mellan variablerna. Detta är vad du sannolikt får med två uppsättningar slumpmässiga tal.
    • Värden mellan 0 och +1/-1 representerar en skala med svaga, måttliga och starka relationer. r närmar sig antingen -1 eller 1, ökar styrkan i sambandet.

    Riktning

    Koefficienttecknet (plus eller minus) anger förhållandets riktning.

    • Positivt Koefficienter representerar direkt korrelation och ger en uppåtgående lutning i en graf - när den ena variabeln ökar ökar den andra och vice versa.
    • Negativ Koefficienter representerar omvänd korrelation och ger en nedåtgående lutning i en graf - när en variabel ökar tenderar den andra variabeln att minska.

    För att få en bättre förståelse kan du ta en titt på följande korrelationsdiagram:

    • En koefficient på 1 innebär ett perfekt positivt förhållande - när en variabel ökar, ökar den andra proportionellt.
    • En koefficient på -1 innebär ett perfekt negativt förhållande - när den ena variabeln ökar minskar den andra proportionellt.
    • En koefficient på 0 betyder att det inte finns något samband mellan två variabler - datapunkterna är utspridda över hela grafen.

    Pearson-korrelation

    Inom statistiken mäter man flera olika typer av korrelation beroende på vilken typ av data du arbetar med. I den här handledningen kommer vi att fokusera på den vanligaste typen av korrelation.

    Korrelation med Pearson , det fullständiga namnet är Pearson Product Moment Korrelation (PPMC), används för att utvärdera linjär samband mellan data när en förändring i en variabel är förknippad med en proportionell förändring i den andra variabeln. Enkelt uttryckt svarar Pearsons korrelation på frågan: Kan data representeras på en linje?

    Inom statistiken är det den mest populära korrelationstypen, och om du har att göra med en "korrelationskoefficient" utan vidare kvalificering är det troligen Pearson.

    Här är den vanligaste formeln för att hitta Pearsons korrelationskoefficient, även kallad Pearsons R :

    Ibland kan det hända att du stöter på två andra formler för att beräkna Korrelationskoefficient för stickprov. (r) och korrelationskoefficient för befolkningen (ρ).

    Hur man gör Pearsonkorrelation i Excel

    Att beräkna Pearsons korrelationskoefficient för hand innebär en hel del matematik. Som tur är har Microsoft Excel gjort det mycket enkelt. Beroende på din datamängd och ditt mål kan du använda en av följande tekniker:

    • Hitta Pearsons korrelationskoefficient med CORREL-funktionen.
    • Gör en korrelationsmatris genom att utföra dataanalys.
    • Hitta multipla korrelationskoefficienter med en formel.
    • Gör ett korrelationsdiagram för att få en visuell representation av dataförhållandet.

    Hur man beräknar korrelationskoefficienten i Excel

    Om du vill beräkna en korrelationskoefficient för hand måste du använda den här långa formeln. Om du vill hitta en korrelationskoefficient i Excel kan du använda CORREL- eller PEARSON-funktionen och få resultatet på en bråkdel av en sekund.

    Excel CORREL-funktionen

    Funktionen CORREL returnerar Pearsonkorrelationskoefficienten för två uppsättningar av värden. Syntaxen är mycket enkel och okomplicerad:

    CORREL(array1, array2)

    Var:

    • Array1 är det första intervallet av värden.
    • Array2 är det andra intervallet av värden.

    De två matriserna ska vara lika långa.

    Om vi antar att vi har en uppsättning oberoende variabler ( x ) i B2:B13 och beroende variabler (y) i C2:C13, är vår formel för korrelationskoefficient följande:

    = KORREL(B2:B13, C2:C13)

    Vi kan också byta ut intervallerna och få samma resultat:

    = KORREL(C2:C13, B2:B13)

    Hur som helst visar formeln en stark negativ korrelation (ca -0,97) mellan den genomsnittliga månadstemperaturen och antalet sålda värmare:

    3 saker du bör veta om CORREL-funktionen i Excel

    Om du vill beräkna korrelationskoefficienten i Excel på ett framgångsrikt sätt ska du komma ihåg dessa tre enkla fakta:

    • Om en eller flera celler i en matris innehåller text, logiska värden eller tomrum ignoreras dessa celler; celler med nollvärden beräknas.
    • Om de matriser som tillhandahålls är av olika längd returneras ett #N/A-fel.
    • Om någon av matriserna är tom eller om standardavvikelsen för deras värden är lika med noll, uppstår felet #DIV/0!

    Excel PEARSON-funktionen

    Funktionen PEARSON i Excel gör samma sak - den beräknar Pearson Product Moment Correlation-koefficienten.

    PEARSON(array1, array2)

    Var:

    • Array1 är ett intervall av oberoende värden.
    • Array2 är ett intervall av beroende värden.

    Eftersom PEARSON och CORREL båda beräknar Pearsons linjära korrelationskoefficient bör deras resultat stämma överens, och det gör de i allmänhet i de senaste versionerna av Excel 2007 till Excel 2019.

    I Excel 2003 och tidigare versioner kan dock PEARSON-funktionen visa vissa avrundningsfel. I äldre versioner rekommenderas därför att använda CORREL i stället för PEARSON.

    På vårt datamaterial visar båda funktionerna samma resultat:

    = KORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Hur man gör en korrelationsmatris i Excel med Data Analysis

    När du behöver testa sambanden mellan mer än två variabler är det klokt att konstruera en korrelationsmatris, som ibland kallas Multipel korrelationskoefficient. .

    korrelationsmatris är en tabell som visar korrelationskoefficienterna mellan variablerna i skärningspunkten mellan motsvarande rader och kolumner.

    Korrelationsmatrisen i Excel byggs upp med hjälp av Korrelation verktyg från Verktygspaket för analys Det här tillägget finns i alla versioner av Excel 2003 till Excel 2019, men är inte aktiverat som standard. Om du inte har aktiverat det ännu, gör det nu genom att följa stegen i Hur man aktiverar Data Analysis ToolPak i Excel.

    Med dataanalysverktygen i Excel-bandet är du redo att utföra korrelationsanalyser:

    1. I det övre högra hörnet av Uppgifter flik> Analys grupp, klickar du på Analys av data knapp.
    2. I Analys av data dialogrutan, välj Korrelation och klicka på OK.
    3. I Korrelation och konfigurera parametrarna på detta sätt:
      • Klicka på i Ingångsintervall och välj intervallet med dina källdata, inklusive kolumnrubriker (B1:D13 i vårt fall).
      • I Grupperade efter avsnittet, se till att den Kolumner är markerad (eftersom dina källdata är grupperade i kolumner).
      • Välj den Etiketter i första raden kryssrutan om det valda intervallet innehåller kolumnrubriker.
      • Välj önskat utskriftsalternativ. Om du vill ha matrisen på samma ark väljer du Utgångsområde och ange referensen till den cell längst till vänster i vilken matrisen ska skrivas ut (A15 i det här exemplet).

    När du är klar klickar du på OK knapp:

    Din matris med korrelationskoefficienter är klar och bör se ut ungefär som i nästa avsnitt.

    Tolkning av resultaten av korrelationsanalyser

    I din Excel-korrelationsmatris kan du hitta koefficienterna i skärningspunkten mellan rader och kolumner. Om kolumn- och radkoordinaterna är desamma, ges värdet 1 ut.

    I exemplet ovan är vi intresserade av att känna till korrelationen mellan den beroende variabeln (antal sålda värmare) och två oberoende variabler (genomsnittlig månadstemperatur och reklamkostnader). Därför tittar vi bara på siffrorna i skärningspunkten mellan dessa rader och kolumner, som är markerade i skärmdumpen nedan:

    Den negativa koefficienten på -0,97 (avrundad till två decimaler) visar ett starkt omvänt samband mellan månadstemperaturen och försäljningen av värmare - ju högre temperaturen är, desto färre värmare säljs.

    Den positiva koefficienten på 0,97 (avrundat till två decimaler) visar att det finns ett starkt direkt samband mellan reklambudget och försäljning - ju mer pengar du spenderar på reklam, desto högre försäljning.

    Hur man gör en analys av flera korrelationer i Excel med formler

    Det är enkelt att bygga upp korrelationstabellen med verktyget Data Analysis, men matrisen är statisk, vilket innebär att du måste köra korrelationsanalysen på nytt varje gång källdata ändras.

    Den goda nyheten är att du enkelt kan skapa en liknande korrelationstabell själv, och matrisen uppdateras automatiskt vid varje ändring av källvärdena.

    För att få det gjort använder du den här generiska formeln:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, KOLUMNER($A:A)-1)))

    Viktigt att notera: För att formeln ska fungera måste du låsa det första variablerna genom att använda absoluta cellreferenser.

    I vårt fall är det första variabelintervallet $B$2:$B$13 (observera $-tecknet som låser referensen), och vår korrelationsformel har följande form:

    =KORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    När formeln är klar kan vi konstruera en korrelationsmatris:

    1. I matrisens första rad och första kolumn skriver du variablernas etiketter i samma ordning som de visas i källtabellen (se skärmbilden nedan).
    2. Ange ovanstående formel i den vänstra cellen (B16 i vårt fall).
    3. Dra formeln nedåt och åt höger för att kopiera den till så många rader och kolumner som behövs (3 rader och 3 kolumner i vårt exempel).

    Resultatet är följande matris med flera korrelationskoefficienter. Observera att de koefficienter som returneras av vår formel är exakt desamma som Excel gav ut i det föregående exemplet (de relevanta koefficienterna är markerade):

    Hur denna formel fungerar

    Som du redan vet returnerar Excel-funktionen CORREL korrelationskoefficienten för två uppsättningar variabler som du anger. Den största utmaningen är att ange lämpliga intervall i de motsvarande cellerna i matrisen. För detta anger du bara det första variabelintervallet i formeln och använder följande funktioner för att göra de nödvändiga justeringarna:

    • OFFSET - returnerar ett intervall som är ett givet antal rader och kolumner från ett angivet intervall.
    • ROWS och COLUMNS - returnerar antalet rader respektive kolumner i ett intervall. I vår korrelationsformel används båda med ett syfte - att få fram det antal kolumner som ska förskjutas från startintervallet. Och detta uppnås genom att på ett smart sätt använda absoluta och relativa referenser.

    För att bättre förstå logiken ska vi se hur formeln beräknar de koefficienter som markeras i skärmdumpen ovan.

    Låt oss först undersöka formeln i B18, som visar sambandet mellan månadstemperaturen (B2:B13) och sålda värmare (D2:D13):

    =KORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    I den första OFFSET-funktionen har ROWS($1:1) omvandlats till ROWS($1:3) eftersom den andra koordinaten är relativ, så den ändras beroende på den relativa positionen för den rad där formeln kopieras (2 rader ner). ROWS() returnerar alltså 3, från vilket vi subtraherar 1 och får ett intervall som ligger 2 kolumner till höger om källintervallet, dvs. $D$2:$D$13 (försäljning av värmare).

    Den andra OFFSET ändrar inte det angivna intervallet $B$2:$B$13 (temperatur) eftersom COLUMNS($A:A)-1 returnerar noll.

    Resultatet är att vår långa formel förvandlas till en enkel CORREL($D$2:$D$13, $B$2:$B$13) och ger exakt den koefficient vi vill ha.

    Formeln i C18 som beräknar en korrelationskoefficient för reklamkostnad (C2:C13) och försäljning (D2:D13) fungerar på liknande sätt:

    =KORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Den första OFFSET-funktionen är helt likadan som beskrivningen ovan och returnerar intervallet $D$2:$D$13 (försäljning av värmare).

    I den andra OFFSET ändras COLUMNS($A:A)-1 till COLUMNS($A:B)-1 eftersom vi har kopierat formeln en kolumn till höger. OFFSET får alltså ett intervall som ligger en kolumn till höger om källintervallet, dvs. $C$2:$C$13 (reklamkostnad).

    Hur man ritar ett korrelationsdiagram i Excel

    När du gör korrelationer i Excel är det bästa sättet att få en visuell representation av relationerna mellan dina data att rita en Spridningsdiagram. med en trendlinje Så här gör du:

    1. Välj två kolumner med numeriska data, inklusive kolumnrubriker. Ordningen på kolumnerna är viktig: den oberoende variabeln ska vara i den vänstra kolumnen eftersom denna kolumn ska plottas på x-axeln. beroende variabeln ska stå i den högra kolumnen eftersom den kommer att plottas på y-axeln.
    2. På den Insats på fliken Chattar grupp, klickar du på Spridning Detta kommer omedelbart att infoga ett XY-spridningsdiagram i arbetsbladet.
    3. Högerklicka på en datapunkt i diagrammet och välj Lägg till trendlinje... från kontextmenyn.

    För detaljerade steg-för-steg-instruktioner, se:

    • Hur man skapar ett spridningsdiagram i Excel
    • Hur man lägger till trendlinje i Excel-diagrammet

    För vår provdatasats ser korrelationsgraferna ut som i bilden nedan. Dessutom visas R-kvadratvärdet, även kallat R-kvadratvärdet, som också kallas för Bestämningskoefficient Detta värde anger hur väl trendlinjen överensstämmer med data - ju närmare R2 till 1, desto bättre överensstämmelse.

    Från R2-värdet som visas på ditt spridningsdiagram kan du enkelt beräkna korrelationskoefficienten:

    1. För bättre precision kan du få Excel att visa fler siffror i R-kvadratvärdet än vad det gör som standard.
    2. Klicka på R2-värdet i diagrammet, välj det med musen och tryck Ctrl + C för att kopiera det.
    3. Få en kvadratrot av R2 antingen genom att använda funktionen SQRT eller genom att höja det kopierade R2-värdet till potensen 0,5.

    Till exempel är R2-värdet i den andra grafen 0,9174339392. Du kan alltså hitta korrelationskoefficienten för Reklam och Sålda värmare med en av dessa formler:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Som du kan se är de koefficienter som beräknas på detta sätt helt i linje med de korrelationskoefficienter som hittats i de tidigare exemplen, utom tecknet :

    Potentiella problem med korrelation i Excel

    Pearson Product Moment Korrelation endast avslöjar en linjär Det betyder att dina variabler kan vara starkt relaterade på ett annat, kurvlinjigt sätt och ändå ha en korrelationskoefficient som är lika med eller nära noll.

    Pearsons korrelation kan inte skilja mellan beroende och oberoende variabler. När vi till exempel använder CORREL-funktionen för att hitta sambandet mellan en genomsnittlig månadstemperatur och antalet sålda värmare får vi en koefficient på -0,97, vilket visar på en hög negativ korrelation. Man kan dock byta ut variablerna och få samma resultat. Någon kan alltså dra slutsatsen att en högre försäljning av värmare leder till att temperaturen sjunker, vilket naturligtvis inte är någonNär du utför korrelationsanalyser i Excel bör du därför vara medveten om vilka data du lämnar in.

    Dessutom är Pearsons korrelation mycket känslig för utflyktingar Om du har en eller flera datapunkter som skiljer sig mycket från resten av datan kan du få en förvrängd bild av förhållandet mellan variablerna. I så fall är det klokt att använda Spearmans rangkorrelation i stället.

    Så gör du korrelation i Excel. Om du vill titta närmare på de exempel som diskuteras i den här handledningen är du välkommen att ladda ner vår exempelarbetsbok nedan. Tack för att du läste och hoppas att vi ses på vår blogg nästa vecka!

    Arbetsbok för övning

    Beräkna korrelation i Excel (.xlsx-fil)

    Michael Brown är en hängiven teknikentusiast med en passion för att förenkla komplexa processer med hjälp av mjukvaruverktyg. Med mer än ett decenniums erfarenhet inom teknikbranschen har han finslipat sina kunskaper i Microsoft Excel och Outlook, samt Google Sheets och Docs. Michaels blogg är tillägnad att dela med sig av sin kunskap och expertis med andra, och tillhandahåller lätta att följa tips och handledningar för att förbättra produktiviteten och effektiviteten. Oavsett om du är en erfaren proffs eller nybörjare, erbjuder Michaels blogg värdefulla insikter och praktiska råd för att få ut det mesta av dessa viktiga programvaruverktyg.