Analiza linearne regresije u Excelu

  • Podijeli Ovo
Michael Brown

Vodič objašnjava osnove regresijske analize i pokazuje nekoliko različitih načina za izvođenje linearne regresije u Excelu.

Zamislite ovo: dobivate puno različitih podataka i od vas se traži da predvidite brojke prodaje vaše kompanije za narednu godinu. Otkrili ste desetine, možda čak i stotine faktora koji mogu uticati na brojke. Ali kako znati koji su zaista važni? Pokrenite regresijsku analizu u Excelu. To će vam dati odgovor na ovo i mnoga druga pitanja: Koji faktori su bitni, a koji se mogu zanemariti? Koliko su ti faktori međusobno povezani? I koliko možete biti sigurni u predviđanja?

    Regresiona analiza u Excelu - osnove

    U statističkom modeliranju, regresiona analiza se koristi za procijenite odnose između dvije ili više varijabli:

    Zavisna varijabla (aka kriterij varijabla) je glavni faktor koji pokušavate razumjeti i predvidjeti.

    Nezavisne varijable (aka objašnjavajuće varijable, ili prediktori ) su faktori koji mogu utjecati na zavisnu varijablu.

    Regresijska analiza vam pomaže razumjeti kako se zavisna varijabla mijenja kada jedna od nezavisnih varijabli varira i omogućava da se matematički odredi koja od tih varijabli zaista ima utjecaj.

    Tehnički, model regresione analize temelji se na zbiru

    U ovom trenutku, vaš grafikon već izgleda kao pristojan regresijski graf:

    Ipak, možda biste trebali napraviti još nekoliko poboljšanja:

    • Prevucite jednačinu gde god želite.
    • Dodajte naslove osi ( Elementi grafikona dugme > Naslovi osa ).
    • Ako tačke podataka počinju na sredini horizontalne i/ili vertikalne ose kao u ovom primeru, možda ćete želeti da se rešite prekomernog belog prostora. Sljedeći savjet objašnjava kako to učiniti: Skalirajte osi grafikona da biste smanjili bijeli prostor.

      A ovako izgleda naš poboljšani regresijski graf:

      Važna napomena! U regresijskom grafu nezavisna varijabla uvijek treba biti na X osi, a zavisna varijabla na Y osi. Ako je vaš grafikon iscrtan obrnutim redoslijedom, zamijenite stupce na radnom listu, a zatim nacrtajte grafikon iznova. Ako vam nije dozvoljeno da preuređujete izvorne podatke, tada možete prebaciti X i Y osi direktno u grafikonu.

    Kako napraviti regresiju u Excelu koristeći formule

    Microsoft Excel ima nekoliko statističkih funkcija koje vam mogu pomoći u analizi linearne regresije kao što su LINEST, SLOPE, INTERCEPT i CORREL.

    Funkcija LINEST koristi metodu regresije najmanjih kvadrata za izračunavanje pravog linija koja najbolje objašnjava odnos između vaših varijabli i vraća niz koji opisuje tu liniju. Detaljno objašnjenje možete pronaćisintaksu funkcije u ovom vodiču. Za sada, napravimo formulu za naš uzorak skupa podataka:

    =LINEST(C2:C25, B2:B25)

    Budući da funkcija LINEST vraća niz vrijednosti, morate ga unijeti kao formulu niza. Odaberite dvije susjedne ćelije u istom redu, u našem slučaju E2:F2, upišite formulu i pritisnite Ctrl + Shift + Enter da biste je dovršili.

    Formula vraća koeficijent b ( E1) i a konstanta (F1) za već poznatu jednadžbu linearne regresije:

    y = bx + a

    Ako izbjegavate korištenje formula niza u svojim radnim listovima, možete izračunati a i b pojedinačno sa regularnim formulama:

    Nabavite Y-presječak (a):

    =INTERCEPT(C2:C25, B2:B25)

    Nabavite nagib (b):

    =SLOPE(C2:C25, B2:B25)

    Pored toga, možete pronaći koeficijent korelacije ( Višestruki R u rezimeu regresione analize) koji pokazuje kako dvije varijable su snažno povezane jedna s drugom:

    =CORREL(B2:B25,C2:C25)

    Sljedeća snimka ekrana prikazuje sve ove Excel regresijske formule u akciji:

    Savjet. Ako želite da dobijete dodatne statistike za vašu regresijsku analizu, koristite funkciju LINEST sa parametrom s tats postavljenim na TRUE kao što je prikazano u ovom primjeru.

    Tako radite linearnu regresiju u Excelu. Uz to, imajte na umu da Microsoft Excel nije statistički program. Ako trebate izvršiti regresijsku analizu na profesionalnom nivou, možda ćete htjeti koristiti ciljanusoftver kao što je XLSTAT, RegressIt, itd.

    Da biste bolje pogledali naše formule linearne regresije i druge tehnike o kojima se raspravlja u ovom vodiču, možete preuzeti naš primjer radne knjige ispod. Hvala vam na čitanju!

    Radna sveska za vježbanje

    Regresijska analiza u Excelu - primjeri (.xlsx datoteka)

    squares, što je matematički način da se pronađe disperzija tačaka podataka. Cilj modela je dobiti najmanju moguću sumu kvadrata i nacrtati liniju koja je najbliža podacima.

    U statistici, oni razlikuju jednostavnu i višestruku linearnu regresiju. Jednostavna linearna regresija modelira odnos između zavisne varijable i jedne nezavisne varijable koristeći linearnu funkciju. Ako koristite dvije ili više objašnjavajućih varijabli za predviđanje zavisne varijable, imate posla sa višestrukom linearnom regresijom . Ako je zavisna varijabla modelirana kao nelinearna funkcija jer odnosi podataka ne prate pravu liniju, umjesto toga koristite nelinearnu regresiju . Fokus ovog tutorijala bit će na jednostavnoj linearnoj regresiji.

    Kao primjer, uzmimo brojke o prodaji suncobrana za posljednja 24 mjeseca i saznamo prosječnu mjesečnu količinu padavina za isti period. Iscrtajte ove informacije na grafikonu, a linija regresije će pokazati odnos između nezavisne varijable (kiša) i zavisne varijable (kišobran prodaje):

    Jednačina linearne regresije

    Matematički, linearna regresija definirana je ovom jednadžbom:

    y = bx + a + ε

    Gdje je:

    • x nezavisna varijabla.
    • y je zavisna varijabla.
    • a je Y-presjek , što je očekivana srednja vrijednost y kada su sve varijable x jednake 0. Na grafu regresije, to je tačka u kojoj linija prelazi Y os.
    • b je nagib regresijske linije, što je stopa promjene za y kako se mijenja x .
    • ε je slučajna greška termin, što je razlika između stvarne vrijednosti zavisne varijable i njene predviđene vrijednosti.

    Jednačina linearne regresije uvijek ima termin greške jer, u stvarnom životu, prediktori nikada nisu savršeno precizni. Međutim, neki programi, uključujući Excel, vrše izračunavanje termina greške iza scene. Dakle, u Excelu radite linearnu regresiju koristeći metodu najmanjih kvadrata i tražite koeficijente a i b tako da je:

    y = bx + a

    Za naš primjer, jednadžba linearne regresije ima sljedeći oblik:

    Umbrellas sold = b * rainfall + a

    Postoji nekoliko različitih načina da se pronađe a i b . Tri glavne metode za izvođenje analize linearne regresije u Excelu su:

    • Alat za regresiju uključen u paket alata za analizu
    • Raspršeni grafikon s linijom trenda
    • Formula linearne regresije

    U nastavku ćete pronaći detaljne upute o korištenju svake metode.

    Kako napraviti linearnu regresiju u Excelu pomoću paketa alata za analizu

    Ovaj primjer pokazuje kako pokrenuti regresiju u Excelu pomoću posebnog alata uključenog u dodatak za Analysis ToolPak.

    Omogućite dodatak za Analysis ToolPak-in

    Paket alata za analizu dostupan je u svim verzijama programa Excel 365 do 2003, ali nije omogućen prema zadanim postavkama. Dakle, morate ga ručno uključiti. Evo kako:

    1. U vašem Excelu kliknite Datoteka > Opcije .
    2. U Opcije Excel dijaloškom okviru, odaberite Dodaci na lijevoj bočnoj traci, uvjerite se da je Excel dodaci odabrano u polju Upravljanje i kliknite Idi .
    3. U dijaloškom okviru Dodaci , označite Paket alata za analizu i kliknite na OK :

    Ovo će dodati alate Analiza podataka na karticu Podaci vaše Excel trake.

    Pokreni regresijsku analizu

    U U ovom primjeru ćemo napraviti jednostavnu linearnu regresiju u Excelu. Ono što imamo je spisak prosječnih mjesečnih padavina za posljednja 24 mjeseca u koloni B, koja je naša nezavisna varijabla (prediktor), i broj prodatih kišobrana u koloni C, koja je zavisna varijabla. Naravno, postoji mnogo drugih faktora koji mogu utjecati na prodaju, ali za sada se fokusiramo samo na ove dvije varijable:

    Sa uključenim paketom alata za analizu, izvršite ove korake da izvršite regresijsku analizu u Excelu:

    1. Na kartici Podaci , u grupi Analiza , kliknite na dugme Analiza podataka .
    2. Odaberite Regresija i kliknite OK .
    3. U dijaloškom okviru Regresija , konfigurirajte sljedeće postavke:
      • Odaberite UnosY Raspon , što je vaša zavisna varijabla . U našem slučaju, to je krovna prodaja (C1:C25).
      • Odaberite Input X Range , tj. vašu nezavisnu varijablu . U ovom primjeru, to je prosječna mjesečna količina padavina (B1:B25).

      Ako gradite model višestruke regresije, odaberite dva ili više susjednih stupaca s različitim nezavisnim varijablama.

      • Označite okvir Oznake ako postoje zaglavlja na vrhu vaših X i Y raspona.
      • Odaberite željenu opciju Izlaz, novi radni list u našem case.
      • Opcionalno, potvrdite okvir Reziduals da dobijete razliku između predviđenih i stvarnih vrijednosti.
    4. Kliknite na OK i promatrajte izlaz regresione analize kreiran u Excelu.

    Interpretirajte izlaz regresijske analize

    Kao što ste upravo vidjeli, pokretanje regresije u Excelu je jednostavno jer se svi proračuni izvode automatski. Interpretacija rezultata je malo složenija jer morate znati šta se krije iza svakog broja. Ispod ćete pronaći raščlanjenu 4 glavna dijela izlazne analize regresije.

    Izlaz regresione analize: Sumarni rezultat

    Ovaj dio vam govori koliko dobro izračunata jednačina linearne regresije odgovara vašim izvornim podacima.

    Evo što znači svaka informacija:

    Višestruko R . To je C koeficijent relacije koji mjeri snagulinearni odnos između dvije varijable. Koeficijent korelacije može biti bilo koja vrijednost između -1 i 1, a njegova apsolutna vrijednost ukazuje na snagu veze. Što je veća apsolutna vrijednost, to je jača veza:

    • 1 znači jaku pozitivnu vezu
    • -1 znači jaku negativnu vezu
    • 0 znači da nema veze u sve

    R kvadrat . To je koeficijent determinacije , koji se koristi kao pokazatelj dobrote uklapanja. Pokazuje koliko bodova pada na liniju regresije. Vrijednost R2 se izračunava iz ukupnog zbira kvadrata, tačnije, to je zbir kvadrata odstupanja originalnih podataka od srednje vrijednosti.

    U našem primjeru, R2 je 0,91 (zaokruženo na 2 znamenke) , što je bas dobro. To znači da 91% naših vrijednosti odgovara modelu regresione analize. Drugim riječima, 91% zavisnih varijabli (y-vrijednosti) je objašnjeno nezavisnim varijablama (x-vrijednosti). Općenito, R kvadrat od 95% ili više se smatra dobrim.

    Prilagođeni R kvadrat . To je R kvadrat prilagođen broju nezavisnih varijable u modelu. Ovu vrijednost ćete htjeti koristiti umjesto R kvadrat za analizu višestruke regresije.

    Standardna greška . To je još jedna mjera dobrobiti koja pokazuje preciznost vaše regresijske analize - što je broj manji, to možete biti sigurnijivaša jednačina regresije. Dok R2 predstavlja postotak varijanse zavisnih varijabli koji je objašnjen modelom, standardna greška je apsolutna mjera koja pokazuje prosječnu udaljenost na kojoj tačke podataka padaju od regresijske linije.

    Zapažanja . To je jednostavno broj zapažanja u vašem modelu.

    Izlaz regresijske analize: ANOVA

    Drugi dio rezultata je Analiza varijanse (ANOVA):

    U osnovi, on dijeli zbroj kvadrata na pojedinačne komponente koje daju informacije o nivoima varijabilnosti unutar vašeg regresijskog modela:

    • df je broj stupnjeva slobode povezanih s izvorima varijance.
    • SS je zbir kvadrata. Što je rezidualni SS manji u poređenju sa ukupnim SS, to bolje vaš model odgovara podacima.
    • MS je srednji kvadrat.
    • F je F statistika, ili F-test za nultu hipotezu. Koristi se za testiranje ukupnog značaja modela.
    • Značajnost F je P-vrijednost F.

    ANOVA dio se rijetko koristi za jednostavna linearna regresijska analiza u Excelu, ali svakako biste trebali pažljivo pogledati posljednju komponentu. Vrijednost Značajnost F daje ideju o tome koliko su pouzdani (statistički značajni) vaši rezultati. Ako je značajnost F manja od 0,05 (5%), vaš model je u redu. Ako je veći od 0,05, vi bistevjerovatno je bolje izabrati drugu nezavisnu varijablu.

    Izlaz regresijske analize: koeficijenti

    Ovaj odjeljak pruža specifične informacije o komponentama vaše analize:

    Najkorisnija komponenta u ovom dijelu je Koeficijenti . Omogućava vam da napravite jednadžbu linearne regresije u Excelu:

    y = bx + a

    Za naš skup podataka, gdje je y broj prodatih kišobrana, a x prosječna mjesečna količina padavina, naša formula linearne regresije ide kako slijedi:

    Y = Rainfall Coefficient * x + Intercept

    Opremljena vrijednostima a i b zaokruženim na tri decimale, pretvara se u:

    Y=0.45*x-19.074

    Na primjer, s prosječnom mjesečnom količinom padalina od 82 mm, prodaja kišobrana bi bila otprilike 17,8:

    0.45*82-19.074=17.8

    Na sličan način možete saznati koliko će kišobrana biti prodato s bilo kojom drugom mjesečnom količinom padavina (x varijabla) koju navedete.

    Izlaz regresijske analize: ostaci

    Ako uporedite procijenjeni i stvarni broj prodanih kišobrana koji odgovara mjesečnoj količini padavina od 82 mm, vidjet ćete da se ovi brojevi malo razlikuju:

    • Procijenjeno: 17,8 (izračunato iznad)
    • Stvarni: 15 (red 2 izvornih podataka)

    Zašto je razlika? Zato što nezavisne varijable nikada nisu savršeni prediktori zavisnih varijabli. A ostaci vam mogu pomoći da shvatite koliko su stvarne vrijednosti udaljene od predviđenih vrijednosti:

    Zaprva tačka podataka (kiša od 82 mm), ostatak je približno -2,8. Dakle, dodamo ovaj broj na predviđenu vrijednost i dobijemo stvarnu vrijednost: 17,8 - 2,8 = 15.

    Kako napraviti graf linearne regresije u Excelu

    Ako trebate brzo vizualizirati odnos između dvije varijable, nacrtajte grafikon linearne regresije. To je vrlo lako! Evo kako:

    1. Odaberite dvije kolone sa svojim podacima, uključujući zaglavlja.
    2. Na kartici Inset , u grupi Chats , kliknite na ikonu Scatter chart i odaberite sličicu Scatter (prva):

      Ovo će umetnuti dijagram raspršenja u vaš radni list, koji će ličiti na ovaj jedan:

    3. Sada, trebamo nacrtati liniju regresije najmanjih kvadrata. Da biste to učinili, kliknite desnim tasterom miša na bilo koju tačku i izaberite Dodaj liniju trenda... iz kontekstnog menija.
    4. U desnom oknu odaberite Linear oblik linije trenda i, opciono, označite Prikaži jednadžbu na grafikonu da dobijete svoju regresijsku formulu:

      Kao što možete primijetiti, jednačina regresije koju je Excel kreirao za nas je ista kao i formula linearne regresije koju smo napravili na osnovu izlaznih koeficijenata.

    5. Prebacite se na Fill & Linija karticu i prilagodite liniju po svom ukusu. Na primjer, možete odabrati drugu boju linije i koristiti punu liniju umjesto isprekidane linije (odaberite Puna linija u polju Tip crtice ):

    Michael Brown je posvećen tehnološki entuzijasta sa strašću za pojednostavljenje složenih procesa pomoću softverskih alata. Sa više od decenije iskustva u tehnološkoj industriji, usavršio je svoje vještine u Microsoft Excelu i Outlooku, kao i Google Sheets i Docs. Michaelov blog je posvećen dijeljenju svog znanja i stručnosti s drugima, pružajući jednostavne savjete i tutorijale za poboljšanje produktivnosti i efikasnosti. Bilo da ste iskusni profesionalac ili početnik, Michaelov blog nudi vrijedne uvide i praktične savjete za izvlačenje maksimuma iz ovih osnovnih softverskih alata.