Innholdsfortegnelse
Opplæringen forklarer det grunnleggende om regresjonsanalyse og viser noen forskjellige måter å gjøre lineær regresjon på i Excel.
Se for deg dette: du får en hel masse forskjellige data og blir bedt om å forutsi neste års salgstall for din bedrift. Du har oppdaget dusinvis, kanskje til og med hundrevis, av faktorer som muligens kan påvirke tallene. Men hvordan vet du hvilke som er virkelig viktige? Kjør regresjonsanalyse i Excel. Det vil gi deg svar på dette og mange flere spørsmål: Hvilke faktorer betyr noe og hvilke kan ignoreres? Hvor nært er disse faktorene knyttet til hverandre? Og hvor sikker kan du være på spådommene?
Regresjonsanalyse i Excel - det grunnleggende
I statistisk modellering brukes regresjonsanalyse til å estimer relasjonene mellom to eller flere variabler:
Avhengig variabel (alias criterion variabel) er hovedfaktoren du prøver å forstå og forutsi.
Uavhengige variabler (aka forklarende variabler, eller prediktorer ) er faktorene som kan påvirke den avhengige variabelen.
Regresjonsanalyse hjelper deg forstå hvordan den avhengige variabelen endrer seg når en av de uavhengige variablene varierer og gjør det mulig å matematisk bestemme hvilken av disse variablene som virkelig har en innvirkning.
Teknisk sett er en regresjonsanalysemodell basert på summen av
På dette tidspunktet ser diagrammet ditt allerede ut som en anstendig regresjonsgraf:
Allikevel kan det være lurt å gjøre noen flere forbedringer:
- Dra ligningen dit du måtte ønske det.
- Legg til aksetitler ( Kartelementer -knappen > Aksetitler ).
- Hvis datapunkter starter i midten av den horisontale og/eller vertikale aksen som i dette eksemplet, det kan være lurt å bli kvitt det overdrevne hvite rommet. Følgende tips forklarer hvordan du gjør dette: Skaler kartaksene for å redusere mellomrom.
Og slik ser vår forbedrede regresjonsgraf ut:
Viktig merknad! I regresjonsgrafen skal den uavhengige variabelen alltid være på X-aksen og den avhengige variabelen på Y-aksen. Hvis grafen er plottet i motsatt rekkefølge, bytt kolonnene i regnearket og tegn deretter diagrammet på nytt. Hvis du ikke har lov til å omorganisere kildedataene, kan du bytte X- og Y-aksene direkte i et diagram.
Hvordan gjøre regresjon i Excel ved hjelp av formler
Microsoft Excel har noen få statistiske funksjoner som kan hjelpe deg med å gjøre lineær regresjonsanalyse som LINJE, SLOPE, INTERCEPT og CORREL.
LINJE-funksjonen bruker minste kvadraters regresjonsmetode for å beregne en rett linje. linje som best forklarer forholdet mellom variablene dine og returnerer en matrise som beskriver den linjen. Du kan finne den detaljerte forklaringen påfunksjonens syntaks i denne opplæringen. For nå, la oss bare lage en formel for vårt eksempeldatasett:
=LINEST(C2:C25, B2:B25)
Fordi LINEST-funksjonen returnerer en matrise med verdier, må du angi den som en matriseformel. Velg to tilstøtende celler i samme rad, E2:F2 i vårt tilfelle, skriv inn formelen og trykk Ctrl + Shift + Enter for å fullføre den.
Formelen returnerer b -koeffisienten ( E1) og a -konstanten (F1) for den allerede kjente lineære regresjonsligningen:
y = bx + a
Hvis du unngår å bruke matriseformler i regnearkene dine, kan du beregne a og b individuelt med vanlige formler:
Få Y-skjæringspunktet (a):
=INTERCEPT(C2:C25, B2:B25)
Få stigningen (b):
=SLOPE(C2:C25, B2:B25)
I tillegg kan du finne korrelasjonskoeffisienten ( Multippel R i regresjonsanalysesammendraget) som indikerer hvordan De to variablene er sterkt relatert til hverandre:
=CORREL(B2:B25,C2:C25)
Følgende skjermbilde viser alle disse Excel-regresjonsformlene i aksjon:
Tips. Hvis du ønsker å få ytterligere statistikk for regresjonsanalysen din, bruk LINJEST-funksjonen med s tats -parameteren satt til TRUE som vist i dette eksemplet.
Det er slik du gjør lineær regresjon i Excel. Når det er sagt, vær så snill å huske på at Microsoft Excel ikke er et statistisk program. Hvis du skal utføre regresjonsanalyse på profesjonelt nivå, kan det være lurt å bruke målrettetprogramvare som XLSTAT, RegressIt, etc.
For å se nærmere på våre lineære regresjonsformler og andre teknikker som er omtalt i denne opplæringen, er du velkommen til å laste ned eksempelarbeidsboken vår nedenfor. Takk for at du leste!
Øvningsarbeidsbok
Regresjonsanalyse i Excel - eksempler (.xlsx-fil)
kvadrater, som er en matematisk måte å finne spredningen av datapunkter. Målet med en modell er å få minst mulig sum av kvadrater og tegne en linje som kommer nærmest dataene.I statistikk skiller de mellom en enkel og multippel lineær regresjon. Enkel lineær regresjon. modellerer forholdet mellom en avhengig variabel og en uavhengig variabel ved å bruke en lineær funksjon. Hvis du bruker to eller flere forklarende variabler for å forutsi den avhengige variabelen, håndterer du multippel lineær regresjon . Hvis den avhengige variabelen er modellert som en ikke-lineær funksjon fordi datarelasjonene ikke følger en rett linje, bruk ikke-lineær regresjon i stedet. Fokuset i denne opplæringen vil være på en enkel lineær regresjon.
La oss som et eksempel ta salgstall for paraplyer for de siste 24 månedene og finne ut gjennomsnittlig månedlig nedbør for samme periode. Plott denne informasjonen på et diagram, og regresjonslinjen vil demonstrere forholdet mellom den uavhengige variabelen (nedbør) og avhengig variabel (paraplysalg):
Lineær regresjonsligning
Matematisk, en lineær regresjon er definert av denne ligningen:
y = bx + a + εHvor:
- x er en uavhengig variabel.
- y er en avhengig variabel.
- a er Y-skjæringspunktet , som er den forventede middelverdien av y når alle x -variabler er lik 0. På en regresjonsgraf er det punktet der linjen krysser Y-aksen.
- b er helning til en regresjonslinje, som er endringshastigheten for y når x endres.
- ε er den tilfeldige feilen term, som er forskjellen mellom den faktiske verdien av en avhengig variabel og dens predikerte verdi.
Den lineære regresjonsligningen har alltid et feilledd fordi, i det virkelige liv, er prediktorer aldri helt presise. Noen programmer, inkludert Excel, gjør imidlertid feiltermberegningen bak kulissene. Så i Excel gjør du lineær regresjon ved å bruke minste kvadrater -metoden og søker koeffisienter a og b slik at:
y = bx + aFor vårt eksempel har den lineære regresjonsligningen følgende form:
Umbrellas sold = b * rainfall + a
Det finnes en håndfull forskjellige måter å finne a og b . De tre hovedmetodene for å utføre lineær regresjonsanalyse i Excel er:
- Regresjonsverktøy inkludert med Analysis ToolPak
- Spredningsdiagram med en trendlinje
- Lineær regresjonsformel
Nedenfor finner du detaljerte instruksjoner om bruk av hver metode.
Hvordan gjøre lineær regresjon i Excel med Analysis ToolPak
Dette eksemplet viser hvordan du kjører regresjon i Excel ved å bruke et spesialverktøy som følger med Analysis ToolPak-tillegget.
Aktiver Analysis ToolPak-tilleggeti
Analysis ToolPak er tilgjengelig i alle versjoner av Excel 365 til 2003, men er ikke aktivert som standard. Så du må slå den på manuelt. Slik gjør du det:
- I Excel klikker du Fil > Alternativer .
- I Excel-alternativene dialogboksen, velg Tillegg på venstre sidefelt, kontroller at Excel-tillegg er valgt i boksen Administrer , og klikk på Gå .
- I dialogboksen Tillegg , huk av Analyseverktøypakke og klikk OK :
Dette vil legge til Dataanalyse -verktøyene til Data -fanen på Excel-båndet.
Kjør regresjonsanalyse
I I dette eksemplet skal vi gjøre en enkel lineær regresjon i Excel. Det vi har er en liste over gjennomsnittlig månedlig nedbør de siste 24 månedene i kolonne B, som er vår uavhengige variabel (prediktor), og antall solgte paraplyer i kolonne C, som er den avhengige variabelen. Selvfølgelig er det mange andre faktorer som kan påvirke salget, men foreløpig fokuserer vi kun på disse to variablene:
Med Analysis Toolpak lagt til, utfør disse trinnene for å utføre regresjonsanalyse i Excel:
- I kategorien Data , i Analyse -gruppen, klikker du på Dataanalyse -knappen.
- Velg Regresjon og klikk OK .
- I dialogboksen Regresjon konfigurerer du følgende innstillinger:
- Velg inndataY Range , som er din avhengige variabel . I vårt tilfelle er det paraplysalg (C1:C25).
- Velg Input X Range , dvs. din uavhengige variabel . I dette eksemplet er det gjennomsnittlig månedlig nedbør (B1:B25).
Hvis du bygger en multippel regresjonsmodell, velg to eller flere tilstøtende kolonner med forskjellige uavhengige variabler.
- Merk av Etiketter-boksen hvis det er overskrifter øverst i X- og Y-områdene.
- Velg ditt foretrukne utdataalternativ, et nytt regneark i vårt tilfelle.
- Velg eventuelt avkrysningsboksen Rester for å få forskjellen mellom de anslåtte og faktiske verdiene.
- Klikk OK og observer regresjonsanalyseutgangen opprettet av Excel.
Tolk utdata for regresjonsanalyse
Som du nettopp har sett, er det enkelt å kjøre regresjon i Excel fordi alle beregninger utføres automatisk. Tolkningen av resultatene er litt vanskeligere fordi du trenger å vite hva som ligger bak hvert tall. Nedenfor finner du en oversikt over 4 hoveddeler av regresjonsanalyseutgangen.
Regresjonsanalyseutdata: Sammendragsutdata
Denne delen forteller deg hvor godt den beregnede lineære regresjonsligningen passer til kildedataene dine.
Her er hva hver enkelt informasjon betyr:
Flere R . Det er C relasjonskoeffisienten som måler styrken tilen lineær sammenheng mellom to variabler. Korrelasjonskoeffisienten kan være en hvilken som helst verdi mellom -1 og 1, og dens absolutte verdi indikerer relasjonsstyrken. Jo større absoluttverdi, desto sterkere er sammenhengen:
- 1 betyr en sterk positiv sammenheng
- -1 betyr en sterk negativ sammenheng
- 0 betyr ingen sammenheng kl. alle
R Square . Det er bestemmelseskoeffisienten , som brukes som en indikator på god passform. Den viser hvor mange poeng som faller på regresjonslinjen. R2-verdien beregnes ut fra den totale summen av kvadrater, mer presist er det summen av kvadrerte avvik til de opprinnelige dataene fra gjennomsnittet.
I vårt eksempel er R2 0,91 (avrundet til 2 sifre) , som er ganske bra. Det betyr at 91 % av verdiene våre passer til regresjonsanalysemodellen. Med andre ord er 91 % av de avhengige variablene (y-verdier) forklart av de uavhengige variablene (x-verdier). Vanligvis anses R Squared på 95 % eller mer som en god passform.
Justert R Square . Det er R kvadratet justert for antall uavhengige variabler i modellen. Du vil ønske å bruke denne verdien i stedet for R kvadrat for multippel regresjonsanalyse.
Standardfeil . Det er et annet godhetsmål som viser presisjonen til regresjonsanalysen din - jo mindre tall, jo sikrere kan du være omregresjonsligningen din. Mens R2 representerer prosentandelen av de avhengige variablenes varians som forklares av modellen, er Standard Error et absolutt mål som viser den gjennomsnittlige avstanden datapunktene faller fra regresjonslinjen.
Observasjoner . Det er ganske enkelt antall observasjoner i modellen din.
Regresjonsanalyseutgang: ANOVA
Den andre delen av utdata er Variansanalyse (ANOVA):
I utgangspunktet, den deler opp summen av kvadrater i individuelle komponenter som gir informasjon om variasjonsnivåene i regresjonsmodellen din:
- df er antallet frihetsgrader knyttet til kildene av varians.
- SS er summen av kvadrater. Jo mindre Residual SS sammenlignet med Total SS, jo bedre passer modellen din til dataene.
- MS er middelkvadraten.
- F er F-statistikken, eller F-testen for nullhypotesen. Den brukes til å teste modellens overordnede betydning.
- Betydning F er P-verdien til F.
ANOVA-delen brukes sjelden for en enkel lineær regresjonsanalyse i Excel, men du bør definitivt se nærmere på den siste komponenten. Significance F -verdien gir en ide om hvor pålitelige (statistisk signifikante) resultatene dine er. Hvis signifikans F er mindre enn 0,05 (5%), er modellen din OK. Hvis den er større enn 0,05, ville dusannsynligvis bedre å velge en annen uavhengig variabel.
Regresjonsanalyseutgang: koeffisienter
Denne delen gir spesifikk informasjon om komponentene i analysen din:
Den mest nyttige komponenten i denne delen er Koeffisienter . Den lar deg bygge en lineær regresjonsligning i Excel:
y = bx + aFor vårt datasett, der y er antall solgte paraplyer og x er en gjennomsnittlig månedlig nedbør, vår lineære regresjonsformel går som følger:
Y = Rainfall Coefficient * x + Intercept
Utstyrt med a- og b-verdier avrundet til tre desimaler, blir den til:
Y=0.45*x-19.074
For eksempel, med gjennomsnittlig månedlig nedbør lik 82 mm, vil paraplysalget være omtrent 17,8:
0.45*82-19.074=17.8
På lignende måte kan du finne ut hvor mange paraplyer som kommer til å bli selges med en hvilken som helst annen månedlig nedbør (x variabel) du spesifiserer.
Regresjonsanalyseutgang: rester
Hvis du sammenligner estimert og faktisk antall solgte paraplyer som tilsvarer den månedlige nedbøren på 82 mm, du vil se at disse tallene er litt forskjellige:
- Estimert: 17,8 (beregnet ovenfor)
- Faktisk: 15 (rad 2 i kildedataene)
Hvorfor er forskjellen? Fordi uavhengige variabler aldri er perfekte prediktorer for de avhengige variablene. Og residualene kan hjelpe deg å forstå hvor langt unna de faktiske verdiene er fra de anslåtte verdiene:
Fordet første datapunktet (nedbør på 82 mm), er resten omtrent -2,8. Så vi legger til dette tallet til den anslåtte verdien, og får den faktiske verdien: 17,8 - 2,8 = 15.
Hvordan lage en lineær regresjonsgraf i Excel
Hvis du raskt trenger å visualisere forholdet mellom de to variablene, tegn et lineært regresjonsdiagram. Det er veldig enkelt! Slik gjør du det:
- Velg de to kolonnene med dataene dine, inkludert overskrifter.
- På Innsett -fanen, i Chatter -gruppen , klikk på Spredningsdiagram -ikonet, og velg Spredning -miniatyrbildet (det første):
Dette vil sette inn et spredningsplott i regnearket ditt, som vil ligne dette en:
- Nå må vi tegne regresjonslinjen for minste kvadrater. For å gjøre det, høyreklikk på et punkt og velg Legg til trendlinje... fra hurtigmenyen.
- I den høyre ruten, velg Lineær trendlinjeform og merk av for Vis ligning på diagrammet for å få regresjonsformelen din:
Som du kanskje legger merke til, er regresjonsligningen Excel har laget for oss den samme som den lineære regresjonsformelen vi bygde basert på koeffisientene.
- Bytt til Fyll & Linje -fanen og tilpass linjen etter eget ønske. Du kan for eksempel velge en annen linjefarge og bruke en heltrukket linje i stedet for en stiplet linje (velg Heltrukken linje i boksen Dash type ):