Sadržaj
Udžbenik objašnjava osnove regresijske analize i pokazuje nekoliko različitih načina za izvođenje linearne regresije u Excelu.
Zamislite ovo: imate puno različitih podataka i od vas se traži da predvidite brojke prodaje vaše tvrtke za sljedeću godinu. Otkrili ste desetke, možda čak i stotine čimbenika koji bi mogli utjecati na brojke. Ali kako znati koji su zaista važni? Pokrenite regresijsku analizu u Excelu. Dat će vam odgovor na ovo i mnoga druga pitanja: koji su čimbenici važni, a koji se mogu zanemariti? Koliko su ovi čimbenici međusobno povezani? I koliko možete biti sigurni u predviđanja?
Regresijska analiza u Excelu - osnove
U statističkom modeliranju regresijska analiza koristi se za procijeniti odnose između dvije ili više varijabli:
Zavisna varijabla (aka kriterij varijabla) je glavni faktor koji pokušavate razumjeti i predvidjeti.
Neovisne varijable (aka objašnjavajuće varijable ili prediktori ) su čimbenici koji bi mogli utjecati na zavisnu varijablu.
Regresijska analiza vam pomaže razumjeti kako se zavisna varijabla mijenja kada jedna od nezavisnih varijabli varira i omogućuje matematičko određivanje koja od tih varijabli stvarno ima utjecaj.
Tehnički, model regresijske analize temelji se na zbroju
U ovom trenutku vaš grafikon već izgleda kao pristojan regresijski grafikon:
Ipak, možda ćete htjeti napraviti još nekoliko poboljšanja:
- Povucite jednadžbu gdje god smatrate prikladnim.
- Dodajte naslove osi (gumb Elementi grafikona > Naslovi osi ).
- Ako vaš podatkovne točke počinju u sredini vodoravne i/ili okomite osi kao u ovom primjeru, možda ćete se htjeti riješiti prekomjernog bijelog prostora. Sljedeći savjet objašnjava kako to učiniti: Skalirajte osi grafikona kako biste smanjili prazan prostor.
Ovako izgleda naš poboljšani regresijski grafikon:
Važna napomena! Na regresijskom grafikonu nezavisna varijabla uvijek treba biti na X osi, a zavisna varijabla na Y osi. Ako je vaš grafikon iscrtan obrnutim redoslijedom, zamijenite stupce na radnom listu, a zatim ponovno nacrtajte grafikon. Ako vam nije dopušteno preurediti izvorne podatke, možete promijeniti X i Y osi izravno u grafikonu.
Kako napraviti regresiju u Excelu pomoću formula
Microsoft Excel ima nekoliko statističkih funkcija koje vam mogu pomoći u linearnoj regresijskoj analizi kao što su LINEST, SLOPE, INTERCEPT i CORREL.
Funkcija LINEST koristi metodu najmanjih kvadrata regresije za izračun ravne linija koja najbolje objašnjava odnos između vaših varijabli i vraća niz koji opisuje tu liniju. Detaljno objašnjenje možete pronaćisintaksu funkcije u ovom vodiču. Za sada samo napravimo formulu za naš ogledni skup podataka:
=LINEST(C2:C25, B2:B25)
Budući da funkcija LINEST vraća niz vrijednosti, morate ga unijeti kao formulu niza. Odaberite dvije susjedne ćelije u istom retku, E2:F2 u našem slučaju, upišite formulu i pritisnite Ctrl + Shift + Enter da je dovršite.
Formula vraća koeficijent b ( E1) i a konstanta (F1) za već poznatu jednadžbu linearne regresije:
y = bx + a
Ako izbjegavate korištenje formula polja u svojim radnim listovima, možete izračunati a i b pojedinačno s regularnim formulama:
Odsjecite Y (a):
=INTERCEPT(C2:C25, B2:B25)
Odredite nagib (b):
=SLOPE(C2:C25, B2:B25)
Dodatno, možete pronaći koeficijent korelacije ( Višestruki R u rezultatu sažetka regresijske analize) koji pokazuje kako dvije su varijable snažno povezane jedna s drugom:
=CORREL(B2:B25,C2:C25)
Sljedeća snimka zaslona prikazuje sve te regresijske formule programa Excel na djelu:
Savjet. Ako želite dobiti dodatnu statistiku za svoju regresijsku analizu, koristite funkciju LINEST s parametrom s tats postavljenim na TRUE kao što je prikazano u ovom primjeru.
Tako radite linearnu regresiju u Excelu. Ipak, imajte na umu da Microsoft Excel nije statistički program. Ako trebate izvršiti regresijsku analizu na profesionalnoj razini, možda biste trebali koristiti ciljanusoftver kao što je XLSTAT, RegressIt, itd.
Da biste pobliže pogledali naše formule linearne regresije i druge tehnike o kojima se govori u ovom vodiču, dobrodošli ste preuzeti naš primjer radne knjige u nastavku. Hvala vam na čitanju!
Radna bilježnica
Regresijska analiza u Excelu - primjeri (.xlsx datoteka)
kvadrati, što je matematički način za pronalaženje disperzije podatkovnih točaka. Cilj modela je dobiti najmanji mogući zbroj kvadrata i nacrtati liniju koja je najbliža podacima.U statistici razlikuju jednostavnu i višestruku linearnu regresiju. Jednostavnu linearnu regresiju modelira odnos između zavisne varijable i jedne nezavisne varijable koristeći linearnu funkciju. Ako koristite dvije ili više eksplanatornih varijabli za predviđanje zavisne varijable, imate posla s višestrukom linearnom regresijom . Ako je zavisna varijabla modelirana kao nelinearna funkcija jer odnosi podataka ne slijede ravnu liniju, umjesto toga upotrijebite nelinearnu regresiju . Fokus ovog vodiča bit će na jednostavnoj linearnoj regresiji.
Kao primjer, uzmimo prodajne brojke za kišobrane za zadnja 24 mjeseca i saznajmo prosječnu mjesečnu količinu padalina za isto razdoblje. Iscrtajte ove podatke na dijagramu, a regresijska linija će pokazati odnos između nezavisne varijable (količine padalina) i zavisne varijable (prodaja kišobrana):
Jednadžba linearne regresije
Matematički, linearna regresija definirana je ovom jednadžbom:
y = bx + a + εGdje je:
- x nezavisna varijabla.
- y je zavisna varijabla.
- a je Y-odsječak , što je očekivana srednja vrijednost y kada su sve varijable x jednake 0. Na regresijskom grafikonu, to je točka u kojoj linija siječe os Y.
- b je nagib regresijske linije, što je stopa promjene za y kako se x mijenja.
- ε je slučajna pogreška izraz, koji je razlika između stvarne vrijednosti zavisne varijable i njezine predviđene vrijednosti.
Jednadžba linearne regresije uvijek ima izraz pogreške jer u stvarnom životu prediktori nikada nisu savršeno precizni. Međutim, neki programi, uključujući Excel, izračunavaju termin pogreške iza scene. Dakle, u Excelu radite linearnu regresiju koristeći metodu najmanjih kvadrata i tražite koeficijente a i b tako da:
y = bx + aZa naš primjer, jednadžba linearne regresije ima sljedeći oblik:
Umbrellas sold = b * rainfall + a
Postoji pregršt različitih načina za pronalaženje a i b . Tri glavne metode za izvođenje linearne regresijske analize u Excelu su:
- Alat za regresiju uključen u Analysis ToolPak
- Rastrzani grafikon s linijom trenda
- Formula za linearnu regresiju
U nastavku ćete pronaći detaljne upute o korištenju svake metode.
Kako napraviti linearnu regresiju u Excelu s Analysis ToolPak-om
Ovaj primjer pokazuje kako pokrenuti regresiju u Excelu korištenjem posebnog alata uključenog u dodatak za Analysis ToolPak.
Omogućite dodatak za Analysis ToolPakin
Analysis ToolPak dostupan je u svim verzijama programa Excel 365 do 2003, ali nije omogućen prema zadanim postavkama. Dakle, morate ga uključiti ručno. Evo kako:
- U vašem Excelu kliknite Datoteka > Opcije .
- U Opcijama programa Excel dijaloški okvir, odaberite Add-ins na lijevoj bočnoj traci, provjerite je li Excel Add-ins odabrano u okviru Manage i kliknite Go .
- U dijaloškom okviru Add-ins označite Analysis Toolpak i kliknite OK :
Ovo će dodati alate Analiza podataka na karticu Podaci vaše Excel vrpce.
Pokrenite regresijsku analizu
u u ovom primjeru ćemo napraviti jednostavnu linearnu regresiju u Excelu. Ono što imamo je popis prosječnih mjesečnih oborina za zadnja 24 mjeseca u stupcu B, koji je naša nezavisna varijabla (prediktor), i broj prodanih kišobrana u stupcu C, koji je zavisna varijabla. Naravno, postoje mnogi drugi čimbenici koji mogu utjecati na prodaju, ali za sada se fokusiramo samo na ove dvije varijable:
S omogućenim Analysis Toolpak-om, provedite ove korake za izvođenje regresijske analize u Excelu:
- Na kartici Podaci , u grupi Analiza kliknite gumb Analiza podataka .
- Odaberite Regresija i kliknite U redu .
- U dijaloškom okviru Regresija konfigurirajte sljedeće postavke:
- Odaberite ulazRaspon Y , koji je vaša ovisna varijabla . U našem slučaju to je krovna prodaja (C1:C25).
- Odaberite Raspon unosa X , tj. svoju nezavisnu varijablu . U ovom primjeru, to je prosječna mjesečna količina padalina (B1:B25).
Ako gradite višestruki regresijski model, odaberite dva ili više susjednih stupaca s različitim nezavisnim varijablama.
- Označite okvir Oznake ako postoje zaglavlja na vrhu vaših raspona X i Y.
- Odaberite željenu opciju izlaza, novi radni list u našem slučaju.
- Opcionalno, odaberite potvrdni okvir Reziduali da biste dobili razliku između predviđenih i stvarnih vrijednosti.
- Kliknite OK i promatrajte izlaz regresijske analize koju je kreirao Excel.
Tumačite izlaz regresijske analize
Kao što ste upravo vidjeli, izvođenje regresije u Excelu je jednostavno jer se svi izračuni izvode automatski. Tumačenje rezultata je malo kompliciranije jer morate znati što stoji iza svake brojke. Ispod ćete pronaći raščlambu 4 glavna dijela rezultata regresijske analize.
Izlaz regresijske analize: Izlaz sažetka
Ovaj dio vam govori koliko dobro izračunata jednadžba linearne regresije odgovara vašim izvornim podacima.
Evo što svaka informacija znači:
Višestruko R . C koeficijent korelacije je taj koji mjeri snagulinearni odnos između dvije varijable. Koeficijent korelacije može biti bilo koja vrijednost između -1 i 1, a njegova apsolutna vrijednost označava snagu veze. Što je veća apsolutna vrijednost, to je odnos jači:
- 1 znači jak pozitivan odnos
- -1 znači jak negativan odnos
- 0 znači da nema odnosa na sve
R kvadrat . To je koeficijent determinacije , koji se koristi kao pokazatelj dobrog pristajanja. Pokazuje koliko točaka pada na regresijsku liniju. Vrijednost R2 izračunava se iz ukupnog zbroja kvadrata, točnije, to je zbroj kvadrata odstupanja izvornih podataka od srednje vrijednosti.
U našem primjeru, R2 je 0,91 (zaokruženo na 2 znamenke) , što je bajkovito dobro. To znači da 91% naših vrijednosti odgovara modelu regresijske analize. Drugim riječima, 91% zavisnih varijabli (y-vrijednosti) objašnjeno je nezavisnim varijablama (x-vrijednosti). Općenito, R kvadrat od 95% ili više smatra se dobrim pristajanjem.
Prilagođeni R kvadrat . To je R kvadrat prilagođen za broj nezavisne varijable u modelu. Htjet ćete koristiti ovu vrijednost umjesto R kvadrata za višestruku regresijsku analizu.
Standardna pogreška . To je još jedna mjera prilagodbe koja pokazuje preciznost vaše regresijske analize - što je manji broj, to možete biti sigurnijisvoju regresijsku jednadžbu. Dok R2 predstavlja postotak varijance zavisnih varijabli koji je objašnjen modelom, standardna pogreška je apsolutna mjera koja pokazuje prosječnu udaljenost na kojoj točke podataka padaju od regresijske linije.
Opažanja . To je jednostavno broj opažanja u vašem modelu.
Izlaz regresijske analize: ANOVA
Drugi dio rezultata je Analiza varijance (ANOVA):
U osnovi, dijeli zbroj kvadrata na pojedinačne komponente koje daju informacije o razinama varijabilnosti unutar vašeg regresijskog modela:
- df je broj stupnjeva slobode povezanih s izvorima varijance.
- SS je zbroj kvadrata. Što je rezidualni SS manji u usporedbi s ukupnim SS-om, vaš model bolje odgovara podacima.
- MS je srednji kvadrat.
- F je F statistika ili F-test za nultu hipotezu. Koristi se za testiranje ukupne značajnosti modela.
- Značajnost F je P-vrijednost F.
Dio ANOVA rijetko se koristi za jednostavna linearna regresijska analiza u Excelu, ali svakako biste trebali pobliže pogledati posljednju komponentu. Vrijednost Značaj F daje ideju o tome koliko su vaši rezultati pouzdani (statistički značajni). Ako je značajnost F manja od 0,05 (5%), vaš je model u redu. Ako je veći od 0,05, trebali bistevjerojatno je bolje odabrati drugu nezavisnu varijablu.
Izlaz regresijske analize: koeficijenti
Ovaj odjeljak pruža specifične informacije o komponentama vaše analize:
Najkorisnija komponenta u ovom odjeljku je Koeficijenti . Omogućuje vam izradu jednadžbe linearne regresije u Excelu:
y = bx + aZa naš skup podataka, gdje je y broj prodanih kišobrana, a x prosječna mjesečna količina padalina, naša formula linearne regresije glasi kako slijedi:
Y = Rainfall Coefficient * x + Intercept
Opremljen s vrijednostima a i b zaokruženim na tri decimalna mjesta, pretvara se u:
Y=0.45*x-19.074
Na primjer, s prosječnom mjesečnom količinom padalina od 82 mm, prodaja kišobrana bila bi približno 17,8:
0.45*82-19.074=17.8
Na sličan način možete saznati koliko će kišobrana biti prodan s bilo kojom drugom mjesečnom količinom oborine (varijabla x) koju navedete.
Izlaz regresijske analize: ostaci
Ako usporedite procijenjeni i stvarni broj prodanih kišobrana koji odgovara mjesečnoj količini oborine od 82 mm, vidjet ćete da se ovi brojevi malo razlikuju:
- Procijenjeno: 17,8 (izračunato gore)
- Stvarno: 15 (redak 2 izvornih podataka)
Zašto je razlika? Budući da nezavisne varijable nikada nisu savršeni prediktori zavisnih varijabli. A reziduali vam mogu pomoći da shvatite koliko su stvarne vrijednosti udaljene od predviđenih vrijednosti:
Zaprva podatkovna točka (oborina od 82 mm), rezidual je približno -2,8. Dakle, dodajemo ovaj broj predviđenoj vrijednosti i dobivamo stvarnu vrijednost: 17,8 - 2,8 = 15.
Kako napraviti linearni regresijski grafikon u Excelu
Ako trebate brzo vizualizirati odnos između dvije varijable, nacrtajte grafikon linearne regresije. To je vrlo jednostavno! Evo kako:
- Odaberite dva stupca sa svojim podacima, uključujući zaglavlja.
- Na kartici Umetak , u grupi Chatovi , kliknite ikonu Raspraženi dijagram i odaberite sličicu Rastrzani (prvi):
Ovo će umetnuti raspršeni dijagram u vaš radni list, koji će sličiti ovom jedan:
- Sada, moramo nacrtati regresijsku liniju najmanjih kvadrata. Da biste to učinili, desnom tipkom miša kliknite bilo koju točku i odaberite Dodaj liniju trenda… iz kontekstnog izbornika.
- Na desnom oknu odaberite Linearno oblik linije trenda i, po izboru, označite Prikaži jednadžbu na grafikonu da biste dobili formulu regresije:
Kao što možete primijetiti, regresijska jednadžba koju je Excel stvorio za nas ista je kao formula linearne regresije koju smo izradili na temelju izlaza koeficijenata.
- Prebacite se na Fill & Line karticu i prilagodite liniju svojim željama. Na primjer, možete odabrati drugu boju linije i koristiti punu liniju umjesto isprekidane linije (odaberite Punu liniju u okviru Vrsta crtice ):