Lineaarne regressioonianalüüs Excelis

  • Jaga Seda
Michael Brown

Õpik selgitab regressioonianalüüsi põhitõdesid ja näitab mõningaid erinevaid võimalusi lineaarse regressiooni tegemiseks Excelis.

Kujutage ette järgmist: teile antakse terve hulk erinevaid andmeid ja teil palutakse ennustada oma ettevõtte järgmise aasta müüginumbreid. Te olete avastanud kümneid, võib-olla isegi sadu tegureid, mis võivad numbreid mõjutada. Aga kuidas te teate, millised neist on tõesti olulised? Käivitage regressioonanalüüs Excelis. See annab teile vastuse sellele ja paljudele teistele küsimustele: Millised tegurid onon oluline ja milliseid võib ignoreerida? Kui tihedalt on need tegurid omavahel seotud? Ja kui kindel saab olla prognoosides?

    Regressioonanalüüs Excelis - põhitõed

    Statistilises modelleerimises, regressioonanalüüs kasutatakse kahe või enama muutuja vaheliste seoste hindamiseks:

    Sõltuv muutuja (ehk kriteerium muutuja) on peamine tegur, mida püütakse mõista ja ennustada.

    Sõltumatud muutujad (ehk selgitav muutujad või ennustajad ) on tegurid, mis võivad mõjutada sõltuvat muutujat.

    Regressioonanalüüs aitab mõista, kuidas muutub sõltuv muutuja, kui üks sõltumatu muutuja muutub, ja võimaldab matemaatiliselt kindlaks teha, milline neist muutujatest on tegelikult mõjutatud.

    Tehniliselt põhineb regressioonanalüüsi mudel ruutude summa , mis on matemaatiline viis andmepunktide hajuvuse leidmiseks. Mudeli eesmärk on saada võimalikult väike ruutude summa ja tõmmata joon, mis on andmetele kõige lähemal.

    Statistikas eristatakse lihtsat ja mitmekordset lineaarset regressiooni. Lihtne lineaarne regressioon modelleerib sõltuva muutuja ja ühe sõltumatu muutuja vahelist seost lineaarse funktsiooni abil. Kui kasutate sõltuva muutuja prognoosimiseks kahte või enamat seletavat muutujat, siis tegelete mitmekordne lineaarne regressioon Kui sõltuv muutuja on modelleeritud mittelineaarse funktsioonina, sest andmete seosed ei ole sirgjoonelised, kasutage funktsiooni mittelineaarne regressioon Selle asemel keskendutakse lihtsale lineaarsele regressioonile.

    Võtame näiteks vihmavarjude müüginumbrid viimase 24 kuu kohta ja leiame sama perioodi keskmise igakuise sademete hulga. Joonistame selle teabe diagrammile ja regressioonijoon näitab seost sõltumatu muutuja (sademete hulk) ja sõltuva muutuja (vihmavarjude müük) vahel:

    Lineaarse regressiooni võrrand

    Matemaatiliselt on lineaarne regressioon määratletud järgmise võrrandiga:

    y = bx + a + ε

    Kus:

    • x on sõltumatu muutuja.
    • y on sõltuv muutuja.
    • a on Y-intertseptsioon , mis on eeldatav keskmine väärtus y kui kõik x muutujad on võrdsed 0. Regressioonigraafikul on see punkt, kus joon ristub Y-teljega.
    • b on kalle regressioonijoonest, mis on muutuste kiirus y nagu x muutused.
    • ε on juhuslik veatermin, mis on erinevus sõltuva muutuja tegeliku väärtuse ja selle prognoositud väärtuse vahel.

    Lineaarse regressiooni võrrandis on alati veatermin, sest tegelikus elus ei ole ennustajad kunagi täiesti täpsed. Mõned programmid, sealhulgas Excel, teevad veaterminite arvutamise siiski kulisside taga. Nii et Excelis saate lineaarse regressiooni teha, kasutades funktsiooni vähimad ruutud meetod ja otsib koefitsiente a ja b nii, et:

    y = bx + a

    Meie näite puhul on lineaarse regressiooni võrrand järgmise kujuga:

    Müüdud vihmavarjud = b * sademete hulk + a

    On olemas käputäis erinevaid viise, kuidas leida a ja b Kolm peamist meetodit lineaarse regressioonianalüüsi tegemiseks Excelis on järgmised:

    • Analysis ToolPak'ile lisatud regressioonivahend
    • Hajuvusdiagramm koos trendijoonega
    • Lineaarse regressiooni valem

    Allpool leiate iga meetodi kasutamise üksikasjalikud juhised.

    Kuidas teha lineaarset regressiooni Excelis koos Analysis ToolPakiga

    See näide näitab, kuidas regressiooni Excelis käivitada, kasutades spetsiaalset tööriista, mis on lisatud Analysis ToolPak-lisapaketti.

    Analüüsitööriistapak-lisa aktiveerimine

    Analysis ToolPak on saadaval kõigis Excel 365 kuni 2003 versioonides, kuid see ei ole vaikimisi sisse lülitatud. Seega peate selle käsitsi sisse lülitama. Siin on, kuidas:

    1. Excelis klõpsake Faili > Valikud .
    2. In the Exceli valikud dialoogiaknas valige Lisandid vasakul külgribal, veenduge, et Exceli lisandmoodulid on valitud Halda kasti ja klõpsake Mine .
    3. In the Lisandid dialoogiaknas, märkige ära Analüüsi tööriistapakett ja klõpsake OK :

    See lisab Andmete analüüs tööriistad Andmed Exceli ribalindi vahekaardil.

    Käivita regressioonianalüüs

    Selles näites teeme Excelis lihtsa lineaarse regressiooni. Meil on veerus B nimekiri viimase 24 kuu keskmisest sademete hulgast, mis on meie sõltumatu muutuja (ennustaja), ja veerus C müüdud vihmavarjude arv, mis on sõltuv muutuja. Loomulikult on palju muid tegureid, mis võivad mõjutada müüki, kuid praegu keskendume ainult nendele kahele muutujale:

    Kui Analysis Toolpak on lisatud, tehke järgmised sammud regressioonianalüüsi tegemiseks Excelis:

    1. On Andmed vahekaardil Analüüs rühma, klõpsake nuppu Andmete analüüs nupp.
    2. Valige Regressioon ja klõpsake OK .
    3. In the Regressioon dialoogiaknas konfigureerige järgmised seaded:
      • Valige Sisend Y vahemik , mis on teie sõltuv muutuja Meie puhul on tegemist vihmavarju müügiga (C1:C25).
      • Valige Sisend X Vahemik , st teie sõltumatu muutuja Selles näites on see kuu keskmine sademete hulk (B1:B25).

      Kui koostate mitme regressioonimudeli, valige kaks või enam kõrvuti asetsevat veergu erinevate sõltumatute muutujatega.

      • Kontrollige Etikettide kast kui teie X- ja Y-vahemiku ülaosas on päised.
      • Valige oma eelistatud Väljundi valik, meie puhul uus tööleht.
      • Valikuliselt valige Jäägid märkeruutu, et saada prognoositud ja tegelike väärtuste vahe.
    4. Klõpsake OK ja jälgige Exceli poolt loodud regressioonianalüüsi väljundit.

    Tõlgendage regressioonianalüüsi tulemusi

    Nagu äsja nägite, on regressiooni käivitamine Excelis lihtne, sest kõik arvutused tehakse automaatselt. Tulemuste tõlgendamine on veidi keerulisem, sest peate teadma, mis on iga numbri taga. Allpool on esitatud regressioonianalüüsi väljundi 4 peamist osa.

    Regressioonanalüüsi väljund: Kokkuvõte

    See osa näitab, kui hästi sobib arvutatud lineaarne regressioonivõrrand teie lähteandmetega.

    Siin on kirjas, mida iga teave tähendab:

    Mitu R See on C orrelatsioonikoefitsient mis mõõdab kahe muutuja vahelise lineaarse seose tugevust. Korrelatsioonikoefitsient võib olla mis tahes väärtus vahemikus -1 ja 1 ning selle absoluutväärtus näitab seose tugevust. Mida suurem on absoluutväärtus, seda tugevam on seos:

    • 1 tähendab tugevat positiivset seost
    • -1 tähendab tugevat negatiivset seost
    • 0 tähendab, et seos puudub

    R-ruut . See on Määratluskoefitsient , mida kasutatakse sobivuse headuse näitajana. See näitab, kui palju punkte langeb regressioonijoonele. R2 väärtus arvutatakse ruutude kogusummast, täpsemalt on see algandmete ruuthälvete summa keskmisest.

    Meie näites on R2 0,91 (ümardatud kahekohaliseks), mis on õiglaselt hea. See tähendab, et 91% meie väärtustest sobib regressioonanalüüsi mudeliga. Teisisõnu, 91% sõltuvatest muutujatest (y-väärtused) on seletatavad sõltumatute muutujatega (x-väärtused). Üldiselt peetakse heaks sobivuseks R-ruutu, mis on 95% või rohkem.

    Korrigeeritud R-ruut . See on R-ruut mida on kohandatud sõltumatud muutujad mudelis. Te soovite kasutada seda väärtust selle asemel, et kasutada R-ruut mitmekordse regressioonianalüüsi jaoks.

    Standardviga See on teine sobivuse headuse mõõt, mis näitab teie regressioonianalüüsi täpsust - mida väiksem on see arv, seda kindlamalt võite olla oma regressioonivõrrandis. Kui R2 näitab, kui suur osa sõltuvate muutujate variatsioonist on mudeliga seletatav, siis standardviga on absoluutne mõõt, mis näitab, kui kaugele andmekohad keskmiselt jäävad regressioonist.rida.

    Tähelepanekud See on lihtsalt vaatluste arv teie mudelis.

    Regressioonanalüüsi väljund: ANOVA

    Teine osa väljundist on variatsioonianalüüs (ANOVA):

    Põhimõtteliselt jagab see ruutude summa üksikuteks komponentideks, mis annavad teavet teie regressioonimudeli varieeruvuse tasemete kohta:

    • df on dispersiooniallikatega seotud vabadusastmete arv.
    • SS on ruutude summa. Mida väiksem on jääk-SS võrreldes kogu-SS-ga, seda paremini sobib teie mudel andmetega.
    • MS on keskmine ruut.
    • F on F-statistik ehk nullhüpoteesi F-test. Seda kasutatakse mudeli üldise olulisuse testimiseks.
    • Tähtsus F on F-i P-väärtus.

    ANOVA osa kasutatakse Excelis harva lihtsa lineaarse regressioonianalüüsi puhul, kuid viimast komponenti peaksite kindlasti tähelepanelikult vaatama. Tähtsus F väärtus annab aimu sellest, kui usaldusväärsed (statistiliselt olulised) on teie tulemused. Kui Significance F on väiksem kui 0,05 (5%), on teie mudel korras. Kui see on suurem kui 0,05, on ilmselt parem valida mõni teine sõltumatu muutuja.

    Regressioonanalüüsi väljund: koefitsiendid

    Selles jaotises esitatakse konkreetne teave teie analüüsi komponentide kohta:

    Selle osa kõige kasulikum komponent on Koefitsiendid See võimaldab teil koostada lineaarse regressiooni võrrandit Excelis:

    y = bx + a

    Meie andmekogumi puhul, kus y on müüdud vihmavarjude arv ja x on kuu keskmine sademete hulk, siis meie lineaarse regressiooni valem on järgmine:

    Y = Sademete koefitsient * x + intertseptsioon

    Varustatud a ja b väärtustega, mis on ümardatud kolme kümnendkohani, muutub see järgmiselt:

    Y=0,45*x-19,074

    Näiteks, kui keskmine sademete hulk kuus on 82 mm, oleks vihmavarju müük ligikaudu 17,8:

    0.45*82-19.074=17.8

    Samamoodi saate teada, kui palju vihmavarju müüakse mis tahes muu igakuise vihmahulga (muutuja x) korral, mille te määrate.

    Regressioonanalüüsi väljund: jääkide arv

    Kui võrrelda 82 mm igakuisele sademete hulgale vastavate müüdud vihmavarjude hinnangulist ja tegelikku arvu, siis näete, et need arvud on veidi erinevad:

    • Hinnanguline: 17,8 (eespool arvutatud)
    • Tegelik: 15 (lähteandmete 2. rida)

    Miks on erinevus? Sest sõltumatud muutujad ei ole kunagi sõltuvate muutujate täiuslikud ennustajad. Ja jääkide abil saate aru, kui kaugel on tegelikud väärtused prognoositud väärtustest:

    Esimese andmepunkti puhul (sademete hulk 82 mm) on jääk ligikaudu -2,8. Seega lisame selle arvu prognoositavale väärtusele ja saame tegeliku väärtuse: 17,8 - 2,8 = 15.

    Kuidas teha lineaarne regressioonigraafik Excelis

    Kui teil on vaja kiiresti visualiseerida kahe muutuja vahelist seost, joonistage lineaarse regressiooni graafik. See on väga lihtne! Siin on, kuidas:

    1. Valige kaks veergu oma andmetega, kaasa arvatud päised.
    2. On Sisemine vahekaardil Vestlused rühma, klõpsake nuppu Hajuvusdiagramm ikooni ja valige Scatter pisipilt (esimene):

      See sisestab teie töölehel hajuvusdiagrammi, mis sarnaneb sellele:

    3. Nüüd peame joonistama väikseimate ruutude regressioonijoone. Selleks tuleb teha paremklõps suvalisel punktil ja valida Lisa Trendline... kontekstmenüüst.
    4. Valige paremal paanil Lineaarne trendijoone kuju ja valikuliselt kontrollida Näita võrrandit diagrammil et saada oma regressioonivalem:

      Nagu võite märgata, on Exceli poolt meile loodud regressioonivõrrand sama, mis lineaarse regressiooni valem, mille me koostasime koefitsientide väljundi põhjal.

    5. Lülita ümber Fill & Line ja kohandada joont vastavalt oma soovile. Näiteks võite valida teise joone värvi ja kasutada katkendliku joone asemel täisjoont (valige jaotises Täisjoon kriipsu tüüp kast):

    Sel hetkel näeb teie graafik juba välja nagu korralik regressioonigraafik:

    Siiski võiksite teha veel mõned parandused:

    • Lohistage võrrandit sinna, kuhu soovite.
    • Lisage telgede pealkirjad ( Diagrammi elemendid nupp> Telje pealkirjad ).
    • Kui teie andmepunktid algavad horisontaal- ja/või vertikaaltelje keskelt, nagu selles näites, võite soovida vabaneda liigsest valgest ruumist. Järgmine näpunäide selgitab, kuidas seda teha: Skaleerige diagrammi teljed, et vähendada valget ruumi.

      Ja nii näeb välja meie parandatud regressioonigraafik:

      Oluline märkus! Regressioonigraafikus peaks sõltumatu muutuja olema alati X-teljel ja sõltuv muutuja Y-teljel. Kui teie graafik on kujutatud vastupidises järjekorras, vahetage oma töölehel veerud ja joonistage graafik uuesti. Kui teil ei ole lubatud lähteandmeid ümber paigutada, siis võite X- ja Y-telge vahetada otse graafikus.

    Kuidas teha regressiooni Excelis, kasutades valemeid

    Microsoft Excelil on mõned statistilised funktsioonid, mis aitavad teil teha lineaarset regressioonianalüüsi, näiteks LINEST, SLOPE, INTERCEPT ja CORREL.

    Funktsioon LINEST kasutab vähimate ruutude regressioonimeetodit, et arvutada sirge, mis seletab kõige paremini teie muutujate vahelist seost, ja tagastab seda sirget kirjeldava massiivi. Funktsiooni süntaksi üksikasjaliku selgituse leiate sellest õpetusest. Praegu teeme lihtsalt valemi meie näidisandmestiku jaoks:

    =LINEST(C2:C25, B2:B25)

    Kuna funktsioon LINEST tagastab väärtuste massiivi, peate selle sisestama massiivi valemina. Valige kaks kõrvuti asetsevat lahtrit samas reas, meie puhul E2:F2, sisestage valem ja vajutage Ctrl + Shift + Enter, et seda täiendada.

    Valem tagastab b koefitsient (E1) ja a konstant (F1) juba tuttava lineaarse regressiooni võrrandi jaoks:

    y = bx + a

    Kui te väldite oma töölehtedel massiivi valemite kasutamist, saate arvutada a ja b individuaalselt tavaliste valemitega:

    Hangi Y-suunaline lõikepunkt (a):

    =INTERCEPT(C2:C25, B2:B25)

    Saage kalle (b):

    =SLOPE(C2:C25, B2:B25)

    Lisaks sellele leiate korrelatsioonikoefitsient ( Mitu R regressioonianalüüsi kokkuvõttes), mis näitab, kui tugevalt on need kaks muutujat omavahel seotud:

    =CORREL(B2:B25,C2:C25)

    Järgnev ekraanipilt näitab kõiki neid Exceli regressioonivalemeid töös:

    Vihje. Kui soovite oma regressioonianalüüsi jaoks saada täiendavat statistikat, kasutage funktsiooni LINEST koos s tats parameetriks TRUE, nagu on näidatud selles näites.

    Nii saate teha lineaarset regressiooni Excelis. See tähendab, et pidage meeles, et Microsoft Excel ei ole statistikaprogramm. Kui teil on vaja teha regressioonianalüüsi professionaalsel tasemel, võite kasutada sihtotstarbelist tarkvara nagu XLSTAT, RegressIt jne.

    Et lähemalt tutvuda meie lineaarse regressiooni valemite ja teiste selles õpetuses käsitletud tehnikate kohta, võite alla laadida meie näidistööraamatu. Aitäh lugemise eest!

    Praktiline töövihik

    Regressioonanalüüs Excelis - näited (.xlsx fail)

    Michael Brown on pühendunud tehnoloogia entusiast, kelle kirg on tarkvaratööriistade abil keerukate protsesside lihtsustamine. Rohkem kui kümneaastase kogemusega tehnoloogiatööstuses on ta lihvinud oma oskusi Microsoft Excelis ja Outlookis, samuti Google Sheetsis ja Docsis. Michaeli ajaveebi eesmärk on jagada oma teadmisi ja teadmisi teistega, pakkudes hõlpsasti järgitavaid näpunäiteid ja õpetusi tootlikkuse ja tõhususe parandamiseks. Olenemata sellest, kas olete kogenud professionaal või algaja, pakub Michaeli ajaveebi väärtuslikke teadmisi ja praktilisi nõuandeid nende oluliste tarkvaratööriistade maksimaalseks kasutamiseks.