Linearna regresijska analiza v programu Excel

  • Deliti To
Michael Brown

V učbeniku so razložene osnove regresijske analize in prikazanih nekaj različnih načinov izvajanja linearne regresije v programu Excel.

Predstavljajte si naslednje: na voljo imate veliko različnih podatkov in morate napovedati, kakšna bo prodaja vašega podjetja prihodnje leto. Odkrili ste na desetine, morda celo na stotine dejavnikov, ki lahko vplivajo na številke. Toda kako veste, kateri so resnično pomembni? V Excelu izvedite regresijsko analizo. Ta vam bo dala odgovor na to in še več vprašanj: Kateri dejavnikiKako tesno so ti dejavniki povezani med seboj? In kako prepričani ste lahko glede napovedi?

    Regresijska analiza v programu Excel - osnove

    V statističnem modeliranju, regresijska analiza se uporablja za ocenjevanje razmerij med dvema ali več spremenljivkami:

    Odvisna spremenljivka (znan tudi kot merilo spremenljivka) je glavni dejavnik, ki ga poskušate razumeti in napovedati.

    Neodvisne spremenljivke (znan tudi kot pojasnilo spremenljivke ali napovedni dejavniki ) so dejavniki, ki lahko vplivajo na odvisno spremenljivko.

    Regresijska analiza vam pomaga razumeti, kako se odvisna spremenljivka spremeni, ko se spremeni ena od neodvisnih spremenljivk, in omogoča matematično določitev, katera od teh spremenljivk resnično vpliva.

    Tehnično gledano model regresijske analize temelji na vsota kvadratov , ki je matematični način za ugotavljanje razpršenosti podatkovnih točk. cilj modela je dobiti najmanjšo možno vsoto kvadratov in narisati črto, ki se najbolj približa podatkom.

    V statistiki razlikujejo med enostavno in multiplo linearno regresijo. Enostavna linearna regresija modelira razmerje med odvisno spremenljivko in eno neodvisno spremenljivko z linearno funkcijo. Če za napovedovanje odvisne spremenljivke uporabite dve ali več pojasnjevalnih spremenljivk, imate opravka z večkratna linearna regresija Če se odvisna spremenljivka modelira kot nelinearna funkcija, ker razmerja med podatki ne potekajo po premici, uporabite nelinearna regresija Namesto tega se bomo v tem učbeniku osredotočili na preprosto linearno regresijo.

    Kot primer vzemimo podatke o prodaji dežnikov v zadnjih 24 mesecih in ugotovimo povprečno mesečno količino padavin v istem obdobju. Te podatke vnesite v graf in regresijska črta bo pokazala povezavo med neodvisno spremenljivko (količina padavin) in odvisno spremenljivko (prodaja dežnikov):

    Enačba linearne regresije

    Matematično je linearna regresija opredeljena s to enačbo:

    y = bx + a + ε

    Kje:

    • x je neodvisna spremenljivka.
    • y je odvisna spremenljivka.
    • a je Y-intercepcija , ki je pričakovana srednja vrednost y ko so vsi x spremenljivke so enake 0. Na regresijskem grafu je to točka, kjer premica prečka os Y.
    • b je naklon regresijske premice, ki je stopnja spremembe za y kot x spremembe.
    • ε je naključni izraz napake, ki je razlika med dejansko vrednostjo odvisne spremenljivke in njeno napovedano vrednostjo.

    Enačba linearne regresije vedno vsebuje izraz napake, saj v resničnem življenju napovedniki nikoli niso popolnoma natančni. Vendar pa nekateri programi, vključno z Excelom, izračun izraza napake opravijo v ozadju. Tako v Excelu opravite linearno regresijo z uporabo najmanjši kvadratki metoda in iskanje koeficientov a in . b tako, da:

    y = bx + a

    V našem primeru ima enačba linearne regresije naslednjo obliko:

    Prodani dežniki = b * padavine + a

    Obstaja več različnih načinov iskanja a in . b Tri glavne metode za izvajanje linearne regresijske analize v programu Excel so:

    • Orodje za regresijo, vključeno v paket Analysis ToolPak
    • Diagram razpršenosti s trendno črto
    • Formula linearne regresije

    V nadaljevanju so na voljo podrobna navodila za uporabo posameznih metod.

    Kako narediti linearno regresijo v Excelu z orodjem Analysis ToolPak

    Ta primer prikazuje, kako v Excelu izvesti regresijo s posebnim orodjem, ki je vključeno v dodatek Analysis ToolPak.

    Omogočite dodatek Analysis ToolPak

    Analysis ToolPak je na voljo v vseh različicah programa Excel od 365 do 2003, vendar privzeto ni omogočen. Zato ga morate vklopiti ročno:

    1. V Excelu kliknite Datoteka > Možnosti .
    2. V Možnosti programa Excel v pogovornem oknu izberite Dodatki v levi stranski vrstici preverite, ali Excelovi dodatki je izbrana v Upravljanje in kliknite Pojdi na .
    3. V Dodatki v pogovornem oknu odkljukajte možnost Orodje za analizo in kliknite V REDU :

    To bo dodalo Analiza podatkov orodja v Podatki na zavihku Excelovega traku.

    Izvedite regresijsko analizo

    V tem primeru bomo v Excelu izvedli preprosto linearno regresijo. V stolpcu B imamo seznam povprečnih mesečnih padavin v zadnjih 24 mesecih, kar je naša neodvisna spremenljivka (napovednik), v stolpcu C pa število prodanih dežnikov, kar je odvisna spremenljivka. Seveda lahko na prodajo vpliva še veliko drugih dejavnikov, vendar se bomo za zdaj osredotočili le na ti dve spremenljivki:

    Če je dodan paket Analysis Toolpak omogočen, izvedite naslednje korake za izvedbo regresijske analize v Excelu:

    1. Na Podatki v zavihku Analiza kliknite skupino Analiza podatkov gumb.
    2. Izberite Regresija in kliknite V REDU .
    3. V Regresija v pogovornem oknu konfigurirajte naslednje nastavitve:
      • Izberite Vhodno območje Y , ki je vaš odvisna spremenljivka V našem primeru je to prodaja dežnikov (C1:C25).
      • Izberite Vhod X Območje , tj. vaš neodvisna spremenljivka V tem primeru je to povprečna mesečna količina padavin (B1:B25).

      Če sestavljate večregresijski model, izberite dva ali več sosednjih stolpcev z različnimi neodvisnimi spremenljivkami.

      • Preverite Polje za nalepke če so na vrhu razponov X in Y glave.
      • Izberite želeni Možnost izhoda, v našem primeru nov delovni list.
      • Po želji izberite Ostanki potrditveno polje za pridobitev razlike med napovedanimi in dejanskimi vrednostmi.
    4. Kliknite . V REDU in si oglejte rezultat regresijske analize, ki ga ustvari Excel.

    Interpretacija rezultatov regresijske analize

    Kot ste pravkar videli, je izvajanje regresije v programu Excel enostavno, saj se vsi izračuni izvedejo samodejno. Razlaga rezultatov je nekoliko bolj zapletena, saj morate vedeti, kaj se skriva za posameznimi številkami. V nadaljevanju boste našli razčlenitev 4 glavnih delov rezultatov regresijske analize.

    Rezultat regresijske analize: Povzetek rezultata

    Ta del vam pove, kako dobro se izračunana enačba linearne regresije ujema z vašimi izvornimi podatki.

    Tukaj je opisano, kaj pomenijo posamezne informacije:

    Več R . To je C alikacijski koeficient ki meri moč linearne povezave med dvema spremenljivkama. Korelacijski koeficient je lahko poljubna vrednost med -1 in 1, njegova absolutna vrednost pa kaže moč povezave. Večja kot je absolutna vrednost, močnejša je povezava:

    • 1 pomeni močno pozitivno razmerje
    • -1 pomeni močno negativno razmerje
    • 0 pomeni, da ni nobenega razmerja.

    Kvadrat R . To je Koeficient določitve , ki se uporablja kot kazalnik ustreznosti. kaže, koliko točk pade na regresijsko premico. vrednost R2 se izračuna iz skupne vsote kvadratov, natančneje, je vsota kvadratnih odstopanj prvotnih podatkov od povprečja.

    V našem primeru je R2 0,91 (zaokroženo na dve številki), kar je pravljično dobro. To pomeni, da 91 % naših vrednosti ustreza modelu regresijske analize. Z drugimi besedami, 91 % odvisnih spremenljivk (vrednosti y) je pojasnjenih z neodvisnimi spremenljivkami (vrednostmi x). Na splošno velja, da je R kvadrat 95 % ali več dober.

    Prilagojeni kvadrat R . To je Kvadrat R prilagojena številu neodvisnih spremenljivk v modelu. To vrednost boste želeli uporabiti namesto Kvadrat R za večkratno regresijsko analizo.

    Standardna napaka To je še eno merilo ustreznosti, ki kaže natančnost vaše regresijske analize - manjše kot je to število, bolj ste lahko prepričani o svoji regresijski enačbi. R2 predstavlja odstotek variance odvisnih spremenljivk, ki ga pojasnjuje model, standardna napaka pa je absolutno merilo, ki kaže povprečno oddaljenost podatkovnih točk od regresijske enačbe.linija.

    Opazovanja To je preprosto število opazovanj v vašem modelu.

    Rezultat regresijske analize: ANOVA

    Drugi del izpisa je analiza variance (ANOVA):

    V bistvu razdeli vsoto kvadratov na posamezne komponente, ki dajejo informacije o stopnjah variabilnosti v vašem regresijskem modelu:

    • df je število stopenj prostosti, povezanih z viri variance.
    • SS Manjši kot je preostali SS v primerjavi s skupnim SS, bolje se vaš model ujema s podatki.
    • MS je srednja kvadratna vrednost.
    • F je statistika F ali F-test za ničelno hipotezo. Uporablja se za preverjanje splošne pomembnosti modela.
    • Pomembnost F je P-vrednost F.

    Del ANOVA se za preprosto linearno regresijsko analizo v programu Excel redko uporablja, vsekakor pa si morate podrobno ogledati zadnjo komponento. Pomembnost F vrednost pove, kako zanesljivi (statistično pomembni) so vaši rezultati. Če je vrednost signifikance F manjša od 0,05 (5 %), je vaš model v redu. Če je večja od 0,05, je verjetno bolje izbrati drugo neodvisno spremenljivko.

    Rezultat regresijske analize: koeficienti

    V tem razdelku so navedene posebne informacije o sestavnih delih vaše analize:

    Najbolj uporabna komponenta v tem razdelku je Koeficienti Z njim lahko v Excelu sestavite enačbo linearne regresije:

    y = bx + a

    Za naš nabor podatkov, kjer y je število prodanih dežnikov in x je povprečna mesečna količina padavin, je naša linearna regresijska formula naslednja:

    Y = Koeficient padavin * x + Intercept

    Če sta vrednosti a in b zaokroženi na tri decimalna mesta, dobimo:

    Y=0,45*x-19,074

    Če je na primer povprečna mesečna količina padavin enaka 82 mm, bi prodaja dežnikov znašala približno 17,8:

    0.45*82-19.074=17.8

    Na podoben način lahko ugotovite, koliko dežnikov se bo prodalo s katero koli drugo mesečno količino padavin (spremenljivka x), ki jo določite.

    Rezultat regresijske analize: ostanki

    Če primerjate ocenjeno in dejansko število prodanih dežnikov, ki ustreza mesečni količini padavin 82 mm, boste videli, da se ti podatki nekoliko razlikujejo:

    • Ocena: 17,8 (izračunano zgoraj)
    • Dejansko: 15 (vrstica 2 izvornih podatkov)

    Zakaj je razlika? Ker neodvisne spremenljivke nikoli niso popolni napovedovalci odvisnih spremenljivk. Z ostanki pa lahko razumete, kako daleč so dejanske vrednosti od napovedanih:

    Za prvo podatkovno točko (82 mm padavin) je ostanek približno -2,8. To število dodamo napovedani vrednosti in dobimo dejansko vrednost: 17,8 - 2,8 = 15.

    Kako izdelati linearni regresijski graf v programu Excel

    Če želite hitro prikazati povezavo med dvema spremenljivkama, narišite linearni regresijski diagram. To je zelo enostavno!

    1. Izberite dva stolpca s podatki, vključno z glavo.
    2. Na Vstavljena stran v zavihku Pogovori kliknite skupino Diagram razpršitve in izberite ikono Razpršitev sličica (prva):

      To bo v vaš delovni list vstavilo diagram razpršitve, ki bo podoben temu:

    3. Zdaj moramo narisati regresijsko premico najmanjših kvadratov. To storite tako, da z desno tipko miške kliknete na katero koli točko in izberete Dodajte Trendline... iz kontekstnega menija.
    4. V desnem podoknu izberite Linearno obliko linije trenda in po želji preverite Prikaz enačbe na grafikonu da dobite regresijsko formulo:

      Opazili ste, da je regresijska enačba, ki nam jo je ustvaril Excel, enaka linearni regresijski formuli, ki smo jo sestavili na podlagi izpisa Koeficienti.

    5. Preklopite na Izpolnite & amp; Linija in prilagodite črto po svojih željah. Izberete lahko na primer drugo barvo črte in namesto črtkane uporabite polno črto (izberite Polna črta v zavihku Vrsta armaturne plošče polje):

    Na tej točki je vaš graf že videti kot spodoben regresijski graf:

    Kljub temu boste morda želeli narediti še nekaj izboljšav:

    • Povlecite enačbo, kamor koli se vam zdi primerno.
    • Dodajanje naslovov osi ( Elementi grafikona gumb> Naslovi osi ).
    • Če se vaše podatkovne točke začnejo na sredini vodoravne in/ali navpične osi, kot v tem primeru, se boste morda želeli znebiti prevelikega belega prostora. Naslednji nasvet pojasnjuje, kako to storiti: Pomanjšajte osi grafikona, da zmanjšate beli prostor.

      Tako je videti naš izboljšani regresijski graf:

      Pomembno opozorilo! V regresijskem grafu mora biti neodvisna spremenljivka vedno na osi X, odvisna spremenljivka pa na osi Y. Če je graf narisan v obratnem vrstnem redu, zamenjajte stolpce v delovnem listu in nato graf narišite na novo. Če vam ni dovoljeno prestavljati izvornih podatkov, lahko osi X in Y zamenjate neposredno v grafu.

    Kako narediti regresijo v Excelu z uporabo formul

    Microsoft Excel ima nekaj statističnih funkcij, ki vam lahko pomagajo pri izvajanju linearne regresijske analize, kot so LINEST, SLOPE, INTERCEPT in CORREL.

    Funkcija LINEST uporablja regresijsko metodo najmanjših kvadratov za izračun premice, ki najbolje pojasnjuje razmerje med vašimi spremenljivkami, in vrne polje z opisom te premice. Podrobno razlago sintakse funkcije lahko najdete v tem učbeniku. Za zdaj pripravimo samo formulo za našo vzorčno zbirko podatkov:

    =LINEST(C2:C25, B2:B25)

    Ker funkcija LINEST vrne polje vrednosti, jo morate vnesti kot formulo polja. Izberite dve sosednji celici v isti vrstici, v našem primeru E2:F2, vnesite formulo in pritisnite Ctrl + Shift + Enter, da jo dokončate.

    Formula vrne b koeficient (E1) in a konstanta (F1) za že znano linearno regresijsko enačbo:

    y = bx + a

    Če se v delovnih listih izogibate uporabi formul za polja, lahko izračunate a in . b posamično z običajnimi formulami:

    Pridobi krivuljo Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Izračunajte naklon (b):

    =SLOPE(C2:C25, B2:B25)

    Poleg tega lahko najdete korelacijski koeficient ( Več R v povzetku regresijske analize), ki kaže, kako močno sta spremenljivki povezani med seboj:

    =CORREL(B2:B25,C2:C25)

    Naslednja zaslonska slika prikazuje vse te regresijske formule v Excelu:

    Nasvet: Če želite za regresijsko analizo pridobiti dodatne statistične podatke, uporabite funkcijo LINEST z ukazom s tats nastavljen na TRUE, kot je prikazano v tem primeru.

    Tako v Excelu izvajate linearno regresijo. Ne pozabite, da Microsoft Excel ni statistični program. Če želite opraviti regresijsko analizo na profesionalni ravni, boste morda želeli uporabiti namensko programsko opremo, kot so XLSTAT, RegressIt itd.

    Če si želite podrobneje ogledati naše formule za linearno regresijo in druge tehnike, obravnavane v tem učbeniku, lahko prenesete naš spodnji vzorčni delovni zvezek. Hvala za branje!

    Delovni zvezek za prakso

    Regresijska analiza v Excelu - primeri (.xlsx datoteka)

    Michael Brown je predan tehnološki navdušenec s strastjo do poenostavljanja kompleksnih procesov z uporabo programskih orodij. Z več kot desetletnimi izkušnjami v tehnološki industriji je svoje veščine izpopolnil v Microsoft Excelu in Outlooku ter Google Preglednicah in Dokumentih. Michaelov blog je namenjen deljenju svojega znanja in strokovnega znanja z drugimi ter ponuja preproste nasvete in vadnice za izboljšanje produktivnosti in učinkovitosti. Ne glede na to, ali ste izkušen strokovnjak ali začetnik, Michaelov blog ponuja dragocene vpoglede in praktične nasvete, kako kar najbolje izkoristiti ta osnovna programska orodja.