Linjär regressionsanalys i Excel

  • Dela Detta
Michael Brown

I handledningen förklaras grunderna för regressionsanalys och några olika sätt att utföra linjär regression i Excel.

Tänk dig detta: du får en hel del olika data och ombeds att förutsäga nästa års försäljningssiffror för ditt företag. Du har upptäckt dussintals, kanske till och med hundratals, faktorer som kan påverka siffrorna. Men hur vet du vilka som verkligen är viktiga? Kör en regressionsanalys i Excel. Den ger dig svar på denna och många fler frågor: Vilka faktorerVilka faktorer spelar roll och vilka kan man bortse från? Hur nära hänger dessa faktorer samman? Och hur säker kan man vara på förutsägelserna?

    Regressionsanalys i Excel - grunderna

    I statistisk modellering, regressionsanalys. används för att uppskatta sambanden mellan två eller flera variabler:

    Beroende variabel (alias kriterium variabeln) är den viktigaste faktorn som du försöker förstå och förutsäga.

    Oberoende variabler (alias förklarande variabler, eller Prediktorer ) är de faktorer som kan påverka den beroende variabeln.

    Regressionsanalys hjälper dig att förstå hur den beroende variabeln förändras när en av de oberoende variablerna varierar och gör det möjligt att matematiskt fastställa vilken av dessa variabler som verkligen har en inverkan.

    Tekniskt sett bygger en regressionsanalysmodell på följande summa av kvadrater Målet med en modell är att få fram minsta möjliga summa av kvadrater och dra en linje som ligger närmast uppgifterna.

    Inom statistiken skiljer man mellan enkel och multipel linjär regression. Enkel linjär regression modellerar förhållandet mellan en beroende variabel och en oberoende variabel med hjälp av en linjär funktion. Om du använder två eller flera förklarande variabler för att förutsäga den beroende variabeln, har du att göra med multipel linjär regression Om den beroende variabeln modelleras som en icke-linjär funktion, eftersom dataförhållandena inte följer en rät linje, använd följande icke-linjär regression Fokus i denna handledning kommer att ligga på en enkel linjär regression.

    Låt oss till exempel ta försäljningssiffrorna för paraplyer under de senaste 24 månaderna och ta reda på den genomsnittliga månatliga nederbörden under samma period. Placera denna information på ett diagram och regressionslinjen visar förhållandet mellan den oberoende variabeln (nederbörd) och den beroende variabeln (paraplyförsäljning):

    Ekvation för linjär regression

    Matematiskt sett definieras en linjär regression med denna ekvation:

    y = bx + a + ε

    Var:

    • x är en oberoende variabel.
    • y är en beroende variabel.
    • a är den Y-intercept , som är det förväntade medelvärdet av y när alla x variabler är lika med 0. I en regressionsdiagram är det den punkt där linjen korsar Y-axeln.
    • b är den lutning av en regressionslinje, som är förändringshastigheten för y som x förändringar.
    • ε är den slumpmässiga feltermen, som är skillnaden mellan det faktiska värdet av en beroende variabel och det förutspådda värdet.

    Den linjära regressionsekvationen har alltid en felterm eftersom förutsägare i verkligheten aldrig är helt exakta. Vissa program, inklusive Excel, gör dock beräkningen av feltermen bakom kulisserna. I Excel gör du alltså linjär regression med hjälp av minsta kvadrat. metoden och söka koefficienter a och b så att:

    y = bx + a

    I vårt exempel har den linjära regressionsekvationen följande form:

    Sålda paraplyer = b * nederbörd + a

    Det finns en handfull olika sätt att hitta a och b De tre huvudsakliga metoderna för att utföra linjär regressionsanalys i Excel är:

    • Regressionsverktyg som ingår i Analysis ToolPak
    • Spridningsdiagram med en trendlinje
    • Formel för linjär regression

    Nedan hittar du detaljerade instruktioner om hur du använder varje metod.

    Hur man gör linjär regression i Excel med Analysis ToolPak

    Det här exemplet visar hur du kör regression i Excel med hjälp av ett specialverktyg som ingår i tilläggsmodulen Analysis ToolPak.

    Aktivera tillägget Analysis ToolPak

    Analysis ToolPak finns i alla versioner av Excel 365 till 2003 men är inte aktiverat som standard. Du måste alltså aktivera det manuellt. Så här gör du:

    1. I Excel klickar du på Fil > Alternativ .
    2. I Excel-alternativ dialogrutan, välj Tilläggsfunktioner i den vänstra sidofältet, se till att Excel-tillägg väljs i Hantera och klicka på Gå till .
    3. I Tilläggsfunktioner dialogrutan, kryssa för Verktygspaket för analys och klicka på OK :

    Detta kommer att lägga till Analys av data verktyg till den Uppgifter i Excel-bandet.

    Kör regressionsanalys

    I det här exemplet ska vi göra en enkel linjär regression i Excel. Vi har en lista över genomsnittlig månadsregn under de senaste 24 månaderna i kolumn B, som är vår oberoende variabel (prediktor), och antalet sålda paraplyer i kolumn C, som är den beroende variabeln. Det finns naturligtvis många andra faktorer som kan påverka försäljningen, men för tillfället fokuserar vi bara på dessa två variabler:

    Med Analysis Toolpak aktiverat utför du de här stegen för att utföra regressionsanalys i Excel:

    1. På den Uppgifter på fliken Analys grupp, klickar du på Analys av data knapp.
    2. Välj Regression och klicka på OK .
    3. I Regression Konfigurera följande inställningar:
      • Välj den Ingång Y-område , som är din Beroende variabel. I vårt fall är det paraplyförsäljning (C1:C25).
      • Välj den Ingång X Område , dvs. din oberoende variabel I det här exemplet är det den genomsnittliga månatliga nederbörden (B1:B25).

      Om du bygger en multipel regressionsmodell väljer du två eller flera intilliggande kolumner med olika oberoende variabler.

      • Kontrollera Etikettlåda om det finns rubriker överst i X- och Y-områdena.
      • Välj din favorit Alternativ för utmatning, ett nytt arbetsblad i vårt fall.
      • Du kan också välja Restprodukter för att få fram skillnaden mellan det förutspådda och det faktiska värdet.
    4. Klicka på OK och observera den regressionsanalys som skapas i Excel.

    Tolka resultatet av regressionsanalysen.

    Som du just har sett är det enkelt att köra en regressionsanalys i Excel eftersom alla beräkningar utförs automatiskt. Tolkningen av resultaten är lite svårare eftersom du måste veta vad som ligger bakom varje siffra. Nedan följer en uppdelning av de fyra viktigaste delarna av resultatet av regressionsanalysen.

    Resultat av regressionsanalysen: Sammanfattning

    Den här delen visar hur väl den beräknade linjära regressionsekvationen stämmer med källdata.

    Här är vad varje information betyder:

    Flera R Det är C orrelationskoefficient som mäter styrkan i ett linjärt samband mellan två variabler. Korrelationskoefficienten kan vara ett värde mellan -1 och 1, och dess absoluta värde anger styrkan i sambandet. Ju större det absoluta värdet är, desto starkare är sambandet:

    • 1 innebär ett starkt positivt förhållande.
    • -1 innebär ett starkt negativt förhållande.
    • 0 innebär att det inte finns något förhållande alls.

    R-kvadrat . Det är den Bestämningskoefficient Det visar hur många punkter som ligger på regressionslinjen. R2-värdet beräknas utifrån den totala summan av kvadrater, närmare bestämt summan av de kvadrerade avvikelserna mellan de ursprungliga uppgifterna och medelvärdet.

    I vårt exempel är R2 0,91 (avrundat till två siffror), vilket är bra. Det betyder att 91 % av våra värden passar in i regressionsanalysmodellen. Med andra ord förklaras 91 % av de beroende variablerna (y-värdena) av de oberoende variablerna (x-värdena). Generellt sett anses en R Squared på 95 % eller mer vara en bra anpassning.

    Justerad R-kvadrat . Det är den R-kvadrat justerat för antalet oberoende variabler i modellen. Du vill använda detta värde i stället för R-kvadrat för multipel regressionsanalys.

    Standardfel Det är ett annat mått på god anpassning som visar precisionen i din regressionsanalys - ju mindre talet är, desto säkrare kan du vara på din regressionsekvation. Medan R2 representerar den procentuella andel av variansen i de beroende variablerna som förklaras av modellen, är standardfelet ett absolut mått som visar det genomsnittliga avståndet mellan datapunkterna och regressionsekvationen.linje.

    Observationer Det är helt enkelt antalet observationer i din modell.

    Resultat av regressionsanalys: ANOVA

    Den andra delen av resultatet är variansanalys (ANOVA):

    Den delar upp summan av kvadrater i enskilda komponenter som ger information om variabilitetsnivåerna i din regressionsmodell:

    • df är antalet frihetsgrader för varianskällorna.
    • SS Ju mindre rest-SS är jämfört med total-SS, desto bättre stämmer modellen överens med data.
    • MS är medelkvadraten.
    • F är F-statistiken eller F-testet för nollhypotesen och används för att testa modellens övergripande signifikans.
    • Signifikans F är P-värdet för F.

    ANOVA-delen används sällan för en enkel linjär regressionsanalys i Excel, men du bör definitivt titta närmare på den sista komponenten. Signifikans F ger en uppfattning om hur tillförlitliga (statistiskt signifikanta) dina resultat är. Om Significance F är mindre än 0,05 (5 %) är din modell OK. Om det är större än 0,05 är det nog bättre att välja en annan oberoende variabel.

    Resultat av regressionsanalysen: koefficienter

    I det här avsnittet får du specifik information om de olika delarna av din analys:

    Den mest användbara komponenten i det här avsnittet är Koefficienter Med den kan du skapa en linjär regressionsekvation i Excel:

    y = bx + a

    För vår datamängd, där y är antalet sålda paraplyer och x är den genomsnittliga månatliga nederbörden, så är vår linjära regressionsformel följande:

    Y = nederbördskoefficient * x + Intercept

    Med a- och b-värden avrundade till tre decimaler blir det till:

    Y=0,45*x-19,074

    Om den genomsnittliga månatliga nederbörden till exempel är 82 mm skulle paraplyförsäljningen vara cirka 17,8:

    0.45*82-19.074=17.8

    På samma sätt kan du ta reda på hur många paraplyer som kommer att säljas med någon annan månatlig nederbördsvariabel (x-variabel) som du anger.

    Resultat av regressionsanalysen: residualer

    Om man jämför det uppskattade och det faktiska antalet sålda paraplyer som motsvarar en månadsnederbörd på 82 mm ser man att siffrorna skiljer sig något åt:

    • Beräknat: 17,8 (beräknat ovan)
    • Faktiskt: 15 (rad 2 i källmaterialet)

    Varför är det skillnad? Därför att oberoende variabler aldrig är perfekta prediktorer för de beroende variablerna. Residualerna kan hjälpa dig att förstå hur långt de faktiska värdena ligger från de förutspådda värdena:

    För den första datapunkten (82 mm nederbörd) är residualvärdet ungefär -2,8. Vi lägger alltså till detta tal till det förutspådda värdet och får det faktiska värdet: 17,8 - 2,8 = 15.

    Hur man gör ett linjärt regressionsdiagram i Excel

    Om du snabbt vill visualisera sambandet mellan två variabler kan du rita ett linjärt regressionsdiagram. Det är mycket enkelt! Så här gör du:

    1. Välj de två kolumnerna med dina data, inklusive rubriker.
    2. På den Insats på fliken Chattar grupp, klickar du på Spridningsdiagram ikonen, och välj den Spridning miniatyrbild (den första):

      Detta kommer att infoga ett spridningsdiagram i arbetsbladet, som kommer att likna det här:

    3. Nu måste vi rita regressionslinjen för minsta kvadraters regression. För att göra det, högerklicka på en punkt och välj Lägg till trendlinje... från kontextmenyn.
    4. I den högra rutan väljer du Linjär trendlinjens form och eventuellt kontrollera Visa ekvationen på diagrammet för att få fram din regressionsformel:

      Som du kanske märker är den regressionsekvation som Excel har skapat för oss samma som den linjära regressionsformel som vi byggde upp baserat på koefficienterna.

    5. Växla till Fyllning & Linje och anpassa linjen efter dina önskemål. Du kan till exempel välja en annan färg på linjen och använda en heldragen linje i stället för en streckad linje (välj Heldragen linje på fliken Typ av instrumentbräda box):

    Vid den här tidpunkten ser diagrammet redan ut som ett hyfsat regressionsdiagram:

    Men du kanske ändå vill göra ytterligare några förbättringar:

    • Dra ekvationen dit du vill.
    • Lägg till axeltitlar ( Diagramelement knapp> Axis titlar ).
    • Om dina datapunkter börjar mitt på den horisontella och/eller vertikala axeln som i det här exemplet kanske du vill bli av med det överdrivna vita utrymmet. Följande tips förklarar hur du gör detta: Skala diagramaxlarna för att minska det vita utrymmet.

      Så här ser vår förbättrade regressionsdiagram ut:

      Viktig anmärkning! I regressionsdiagrammet ska den oberoende variabeln alltid vara på X-axeln och den beroende variabeln på Y-axeln. Om diagrammet visas i omvänd ordning byter du ut kolumnerna i arbetsbladet och ritar sedan diagrammet på nytt. Om du inte får ändra på källdata kan du byta X- och Y-axlarna direkt i ett diagram.

    Hur man gör regression i Excel med hjälp av formler

    Microsoft Excel har några statistiska funktioner som kan hjälpa dig att göra linjära regressionsanalyser, t.ex. LINEST, SLOPE, INTERCEPT och CORREL.

    LINEST-funktionen använder regressionsmetoden för minsta kvadraters regression för att beräkna en rak linje som bäst förklarar förhållandet mellan dina variabler och returnerar en matris som beskriver linjen. Du hittar en detaljerad förklaring av funktionens syntax i den här handledningen. För tillfället ska vi bara skapa en formel för vårt exempel på dataset:

    =LINEST(C2:C25, B2:B25)

    Eftersom LINEST-funktionen returnerar en matris av värden måste du ange den som en matrisformel. Markera två intilliggande celler i samma rad, E2:F2 i vårt fall, skriv formeln och tryck på Ctrl + Shift + Enter för att slutföra den.

    Formeln returnerar b koefficienten (E1) och den a konstant (F1) för den redan välkända linjära regressionsekvationen:

    y = bx + a

    Om du undviker att använda matrisformler i dina kalkylblad kan du beräkna a och b individuellt med vanliga formler:

    Ta fram Y-interceptet (a):

    =INTERCEPT(C2:C25, B2:B25)

    Bestäm lutningen (b):

    =LOPE(C2:C25, B2:B25)

    Dessutom kan du hitta korrelationskoefficient ( Flera R i sammanfattningen av regressionsanalysen) som anger hur starkt de två variablerna är relaterade till varandra:

    =CORREL(B2:B25,C2:C25)

    Följande skärmdump visar alla dessa regressionsformler i Excel i praktiken:

    Tips: Om du vill få ytterligare statistik för din regressionsanalys kan du använda funktionen LINEST med s tatueringar till TRUE som visas i det här exemplet.

    Det är så du gör linjär regression i Excel. Kom ihåg att Microsoft Excel inte är ett statistiskt program. Om du behöver utföra regressionsanalyser på professionell nivå kan du använda målinriktade program som XLSTAT, RegressIt osv.

    Om du vill titta närmare på våra formler för linjär regression och andra tekniker som diskuteras i den här handledningen är du välkommen att ladda ner vår exempelarbetsbok nedan. Tack för att du läste!

    Arbetsbok för övning

    Regressionsanalys i Excel - exempel (.xlsx-fil)

    Michael Brown är en hängiven teknikentusiast med en passion för att förenkla komplexa processer med hjälp av mjukvaruverktyg. Med mer än ett decenniums erfarenhet inom teknikbranschen har han finslipat sina kunskaper i Microsoft Excel och Outlook, samt Google Sheets och Docs. Michaels blogg är tillägnad att dela med sig av sin kunskap och expertis med andra, och tillhandahåller lätta att följa tips och handledningar för att förbättra produktiviteten och effektiviteten. Oavsett om du är en erfaren proffs eller nybörjare, erbjuder Michaels blogg värdefulla insikter och praktiska råd för att få ut det mesta av dessa viktiga programvaruverktyg.