Lineaarinen regressioanalyysi Excelissä

  • Jaa Tämä
Michael Brown

Ohjeessa selitetään regressioanalyysin perusteet ja esitellään muutamia eri tapoja tehdä lineaarinen regressio Excelissä.

Kuvittele tämä: Sinulle on toimitettu suuri määrä erilaisia tietoja, ja sinua pyydetään ennustamaan yrityksesi ensi vuoden myyntilukuja. Olet löytänyt kymmeniä, ehkä jopa satoja tekijöitä, jotka voivat mahdollisesti vaikuttaa lukuihin. Mutta mistä tiedät, mitkä niistä ovat todella tärkeitä? Suorita regressioanalyysi Excelissä. Se antaa sinulle vastauksen tähän ja moneen muuhun kysymykseen: Mitkä tekijätKuinka läheisesti nämä tekijät liittyvät toisiinsa ja kuinka varmoja voit olla ennusteista?

    Regressioanalyysi Excelissä - perusteet

    Tilastollisessa mallintamisessa, regressioanalyysi käytetään kahden tai useamman muuttujan välisten suhteiden arvioimiseen:

    Riippuva muuttuja (alias kriteeri muuttuja) on tärkein tekijä, jota yrität ymmärtää ja ennustaa.

    Riippumattomat muuttujat (alias selittävä muuttujat, tai ennustajat ) ovat tekijöitä, jotka voivat vaikuttaa riippuvaiseen muuttujaan.

    Regressioanalyysi auttaa ymmärtämään, miten riippuvainen muuttuja muuttuu, kun jokin riippumattomista muuttujista muuttuu, ja sen avulla voidaan matemaattisesti määrittää, millä näistä muuttujista on todella vaikutusta.

    Teknisesti ottaen regressioanalyysimalli perustuu siihen. neliösumma , joka on matemaattinen tapa löytää datapisteiden hajonta. Mallin tavoitteena on saada pienin mahdollinen neliösumma ja piirtää viiva, joka tulee lähimmäksi dataa.

    Tilastotieteessä erotetaan toisistaan yksinkertainen ja moninkertainen lineaarinen regressio. Yksinkertainen lineaarinen regressio mallintaa riippuvan muuttujan ja yhden riippumattoman muuttujan välistä suhdetta lineaarisen funktion avulla. Jos käytät kahta tai useampaa selittävää muuttujaa ennustamaan riippuvaa muuttujaa, kyseessä on moninkertainen lineaarinen regressio Jos riippuvainen muuttuja mallinnetaan epälineaarisena funktiona, koska tietojen väliset suhteet eivät noudata suoraa linjaa, käytetään seuraavaa tapaa epälineaarinen regressio Sen sijaan tässä opetusohjelmassa keskitytään yksinkertaiseen lineaariseen regressioon.

    Otetaan esimerkiksi sateenvarjojen myyntiluvut viimeisten 24 kuukauden ajalta ja selvitetään saman ajanjakson keskimääräinen kuukausittainen sademäärä. Piirretään nämä tiedot kaavioon, ja regressiosuora osoittaa riippumattoman muuttujan (sademäärä) ja riippuvan muuttujan (sateenvarjojen myynti) välisen suhteen:

    Lineaarinen regressioyhtälö

    Matemaattisesti lineaarinen regressio määritellään tällä yhtälöllä:

    y = bx + a + ε

    Missä:

    • x on riippumaton muuttuja.
    • y on riippuvainen muuttuja.
    • a on Y-suuntainen leikkauspiste , joka on odotettu keskiarvo y kun kaikki x muuttujien arvo on 0. Regressiograafissa se on piste, jossa viiva ylittää Y-akselin.
    • b on kaltevuus regressiosuoran, joka on muutosnopeus varten y kuten x muutokset.
    • ε on satunnainen virhetermi, joka on riippuvan muuttujan todellisen arvon ja ennustetun arvon välinen ero.

    Lineaarisen regression yhtälössä on aina virhetermi, koska tosielämässä ennustajat eivät koskaan ole täydellisen tarkkoja. Jotkin ohjelmat, kuten Excel, laskevat virhetermin kuitenkin kulissien takana. Excelissä lineaarinen regressio tehdään siis käyttämällä komentoa pienimmät neliöt menetelmä ja etsiä kertoimia a ja b siten, että:

    y = bx + a

    Esimerkissämme lineaarinen regressioyhtälö on seuraavanlainen:

    Myydyt sateenvarjot = b * sademäärä + a

    On olemassa kourallinen erilaisia tapoja löytää a ja b Kolme tärkeintä menetelmää lineaarisen regressioanalyysin suorittamiseen Excelissä ovat:

    • Analysis ToolPak -pakettiin sisältyvä regressiotyökalu
    • Hajontakaavio, jossa on trendiviiva
    • Lineaarisen regression kaava

    Alla on yksityiskohtaiset ohjeet kunkin menetelmän käytöstä.

    Kuinka tehdä lineaarinen regressio Excelissä Analysis ToolPakilla

    Tässä esimerkissä näytetään, miten regressio suoritetaan Excelissä käyttämällä Analysis ToolPak -lisäosaan sisältyvää erikoistyökalua.

    Ota Analysis ToolPak -lisäosa käyttöön

    Analysis ToolPak on käytettävissä kaikissa Excel 365:n ja 2003:n versioissa, mutta se ei ole oletusarvoisesti käytössä, joten sinun on otettava se käyttöön manuaalisesti. Näin:

    1. Valitse Excelissäsi Tiedosto > Vaihtoehdot .
    2. Vuonna Excel-vaihtoehdot valintaikkunassa, valitse Lisäosat vasemmassa sivupalkissa, varmista, että Excel-lisäosat on valittu Hallitse ja napsauta Mene .
    3. Vuonna Lisäosat valintaikkunassa, poista rasti Analyysityökalupakki ja napsauta OK :

    Tämä lisää Tietojen analysointi työkalut Tiedot välilehti Excel-nauhassa.

    Suorita regressioanalyysi

    Tässä esimerkissä teemme Excelissä yksinkertaisen lineaarisen regression. Meillä on sarakkeessa B luettelo keskimääräisestä kuukausittaisesta sademäärästä viimeisten 24 kuukauden ajalta, joka on riippumaton muuttujamme (ennustaja), ja sarakkeessa C myytyjen sateenvarjojen määrä, joka on riippuvainen muuttuja. Myyntiin voi tietysti vaikuttaa moni muukin tekijä, mutta nyt keskitymme vain näihin kahteen muuttujaan:

    Kun Analysis Toolpak on otettu käyttöön, suorita regressioanalyysi Excelissä suorittamalla seuraavat vaiheet:

    1. On Tiedot välilehdellä, kohdassa Analyysi ryhmää, napsauta Tietojen analysointi nappi.
    2. Valitse Regressio ja klikkaa OK .
    3. Vuonna Regressio valintaikkunassa määritä seuraavat asetukset:
      • Valitse Tulo Y-alue , joka on sinun riippuvainen muuttuja Meidän tapauksessamme se on sateenvarjomyynti (C1:C25).
      • Valitse Tulo X Alue eli sinun riippumaton muuttuja Tässä esimerkissä se on keskimääräinen kuukausittainen sademäärä (B1:B25).

      Jos olet rakentamassa moninkertaista regressiomallia, valitse kaksi tai useampi vierekkäinen sarake, joissa on eri riippumattomia muuttujia.

      • Tarkista Etiketit laatikko jos X- ja Y-alueiden yläreunassa on otsikoita.
      • Valitse haluamasi Lähtövaihtoehto, meidän tapauksessamme uusi laskentataulukko.
      • Valitse valinnaisesti Jäännökset valintaruutu saadaksesi ennustettujen ja todellisten arvojen välisen erotuksen.
    4. Klikkaa OK ja tarkkaile Excelin luomaa regressioanalyysitulosta.

    Tulkitse regressioanalyysin tuloksia

    Kuten olet juuri nähnyt, regressioanalyysin suorittaminen Excelissä on helppoa, koska kaikki laskutoimitukset suoritetaan automaattisesti. Tulosten tulkinta on hieman hankalampaa, koska sinun on tiedettävä, mitä kunkin luvun takana on. Alla on jaottelu regressioanalyysin tulosteen neljästä tärkeimmästä osasta.

    Regressioanalyysin tuloste: Yhteenvetotuloste

    Tämä osa kertoo, kuinka hyvin laskettu lineaarinen regressioyhtälö sopii lähtötietoihisi.

    Seuraavassa kerrotaan, mitä kukin tieto tarkoittaa:

    Useita R Se on C orrelaatiokerroin Korrelaatiokerroin voi olla mikä tahansa arvo väliltä -1 ja 1, ja sen absoluuttinen arvo ilmaisee suhteen voimakkuuden. Mitä suurempi absoluuttinen arvo on, sitä voimakkaampi suhde on:

    • 1 tarkoittaa vahvaa positiivista suhdetta
    • -1 tarkoittaa vahvaa negatiivista suhdetta
    • 0 tarkoittaa, ettei suhdetta ole lainkaan

    R neliö . Se on Määrityskerroin Se osoittaa, kuinka monta pistettä osuu regressiosuoralle. R2-arvo lasketaan kokonaisneliösummasta, tarkemmin sanottuna se on alkuperäisen aineiston neliöpoikkeamien summa keskiarvosta.

    Esimerkissämme R2 on 0,91 (pyöristettynä kaksinumeroiseksi), mikä on reilun hyvä. Se tarkoittaa, että 91 % arvoista sopii regressioanalyysimalliin. Toisin sanoen 91 % riippuvaisista muuttujista (y-arvoista) selittyy riippumattomilla muuttujilla (x-arvoilla). Yleensä vähintään 95 %:n R-ruudusta pidetään hyvänä sopivuutena.

    Oikaistu R-ruutu . Se on R neliö joka on mukautettu mallin riippumattomien muuttujien lukumäärän mukaan. Tätä arvoa kannattaa käyttää mallin R neliö moninkertaista regressioanalyysia varten.

    Keskivirhe Se on toinen hyvyysmittari, joka osoittaa regressioanalyysin tarkkuuden - mitä pienempi luku on, sitä varmempi voit olla regressioyhtälöstäsi. R2 edustaa sitä prosenttiosuutta riippuvaisen muuttujan varianssista, jonka malli selittää, mutta keskivirhe on absoluuttinen mittari, joka osoittaa, kuinka kaukana datapisteet keskimäärin ovat regressioyhtälöstä.linja.

    Havainnot Se on yksinkertaisesti mallisi havaintojen lukumäärä.

    Regressioanalyysin tulos: ANOVA

    Tuloksen toinen osa on varianssianalyysi (ANOVA):

    Periaatteessa se jakaa neliöiden summan yksittäisiin komponentteihin, jotka antavat tietoa regressiomallisi vaihtelun tasoista:

    • df on varianssilähteisiin liittyvien vapausasteiden lukumäärä.
    • SS Mitä pienempi jäännös-SS on verrattuna kokonais-SS:ään, sitä paremmin malli sopii aineistoon.
    • MS on neliökeskiarvo.
    • F on F-tilasto eli nollahypoteesin F-testi, jota käytetään mallin yleisen merkitsevyyden testaamiseen.
    • Merkitys F on F:n P-arvo.

    ANOVA-osaa käytetään harvoin yksinkertaisessa lineaarisessa regressioanalyysissä Excelissä, mutta viimeistä osaa kannattaa ehdottomasti tarkastella tarkkaan. Merkitys F arvo antaa käsityksen siitä, kuinka luotettavia (tilastollisesti merkitseviä) tuloksesi ovat. Jos Significance F on alle 0,05 (5 %), mallisi on kunnossa. Jos se on suurempi kuin 0,05, sinun on luultavasti parempi valita toinen riippumaton muuttuja.

    Regressioanalyysin tulos: kertoimet

    Tässä jaksossa annetaan tarkempia tietoja analyysin osatekijöistä:

    Tämän jakson hyödyllisin osa on Kertoimet Sen avulla voit muodostaa lineaarisen regressioyhtälön Excelissä:

    y = bx + a

    Meidän aineistossamme, jossa y on myytyjen sateenvarjojen määrä ja x on keskimääräinen kuukausittainen sademäärä, lineaarisen regression kaava on seuraava:

    Y = Sademääräkerroin * x + leikkauspiste.

    Kun a- ja b-arvot on pyöristetty kolmeen desimaaliin, se muuttuu seuraavasti:

    Y=0.45*x-19.074

    Jos esimerkiksi keskimääräinen kuukausittainen sademäärä on 82 mm, sateenvarjojen myynti on noin 17,8:

    0.45*82-19.074=17.8

    Vastaavalla tavalla voit selvittää, kuinka monta sateenvarjoa myydään minkä tahansa muun määrittämäsi kuukausittaisen sademäärän (x-muuttuja) kanssa.

    Regressioanalyysin tulos: jäännökset

    Jos verrataan 82 mm:n kuukausittaista sademäärää vastaavien sateenvarjojen arvioitua ja todellista määrää, havaitaan, että luvut eroavat hieman toisistaan:

    • Arvioitu: 17,8 (edellä laskettu).
    • Todellinen: 15 (lähdetietojen rivi 2).

    Miksi ero? Koska riippumattomat muuttujat eivät koskaan ole täydellisiä ennustajia riippuvaisille muuttujille. Ja residuaalien avulla voit ymmärtää, kuinka kaukana todelliset arvot ovat ennustetuista arvoista:

    Ensimmäisen datapisteen (82 mm:n sademäärä) jäännös on noin -2,8. Lisäämme tämän luvun ennustettuun arvoon ja saamme todellisen arvon: 17,8 - 2,8 = 15.

    Miten tehdä lineaarinen regressiokuva Excelissä?

    Jos haluat nopeasti havainnollistaa kahden muuttujan välisen suhteen, piirrä lineaarinen regressiokaavio. Se on erittäin helppoa! Näin se tehdään:

    1. Valitse kaksi saraketta, joissa on tietosi, otsikot mukaan lukien.
    2. On Inset välilehdellä, kohdassa Keskustelut ryhmää, napsauta Hajontakaavio kuvaketta ja valitse Scatter pikkukuva (ensimmäinen):

      Tämä lisää työarkkiin hajontakuvion, joka muistuttaa tätä:

    3. Nyt meidän on piirrettävä pienimmän neliösumman regressiosuora. Se tehdään klikkaamalla hiiren oikealla näppäimellä mitä tahansa pistettä ja valitsemalla Lisää trendiviiva... kontekstivalikosta.
    4. Valitse oikeassa ruudussa Lineaarinen trendiviivan muoto ja valinnaisesti tarkista Yhtälön näyttäminen kaaviossa saadaksesi regressiokaavasi:

      Kuten saatat huomata, Excelin meille luoma regressioyhtälö on sama kuin lineaarisen regression kaava, jonka rakensimme Coefficients-tulosteen perusteella.

    5. Vaihda Fill & Line välilehdellä ja muokata viivaa mieleiseksesi. Voit esimerkiksi valita eri viivan värin ja käyttää yhtenäistä viivaa katkoviivan sijasta (valitse yhtenäinen viiva valikosta Dash-tyyppi laatikko):

    Tässä vaiheessa kaavio näyttää jo kunnolliselta regressiokaaviolta:

    Silti saatat haluta tehdä vielä muutamia parannuksia:

    • Vedä yhtälö minne haluat.
    • Lisää akselien otsikot ( Kaavion elementit painike> Akselin otsikot ).
    • Jos datapisteesi alkavat vaaka- ja/tai pystyakselin keskeltä, kuten tässä esimerkissä, voit haluta päästä eroon liiallisesta valkoisesta tilasta. Seuraavassa vinkissä kerrotaan, miten tämä tehdään: Skaalaa kaavion akselit valkoisen tilan vähentämiseksi.

      Ja tältä näyttää parannettu regressiograafimme:

      Tärkeä huomautus! Regressiograafissa riippumattoman muuttujan pitäisi aina olla X-akselilla ja riippuvan muuttujan Y-akselilla. Jos kuvaajasi on piirretty päinvastaisessa järjestyksessä, vaihda sarakkeet työtaulukkosi sarakkeissa ja piirrä kaavio sitten uudelleen. Jos et saa järjestää lähdetietoja uudelleen, voit vaihtaa X- ja Y-akseleita suoraan kaaviossa.

    Miten tehdä regressio Excelissä kaavojen avulla?

    Microsoft Excelissä on muutamia tilastollisia funktioita, joiden avulla voit tehdä lineaarisen regressioanalyysin, kuten LINEST, SLOPE, INTERCEPT ja CORREL.

    LINEST-funktio käyttää pienimmän neliösumman regressiomenetelmää laskeakseen suoran, joka selittää parhaiten muuttujien välisen suhteen, ja palauttaa kyseistä suoraa kuvaavan matriisin. Löydät yksityiskohtaisen selityksen funktion syntaksista tästä opetusohjelmasta. Tehdään toistaiseksi vain kaava esimerkkitietoaineistollemme:

    =LINEST(C2:C25, B2:B25)

    Koska LINEST-funktio palauttaa arvojen joukon, sinun on syötettävä se joukon kaavana. Valitse kaksi vierekkäistä solua samalta riviltä, meidän tapauksessamme E2:F2, kirjoita kaava ja täydennä se painamalla Ctrl + Shift + Enter.

    Kaava palauttaa b kerroin (E1) ja a vakio (F1) jo tuttuun lineaariseen regressioyhtälöön:

    y = bx + a

    Jos vältät matriisikaavojen käyttöä työarkissasi, voit laskea a ja b erikseen säännöllisillä kaavoilla:

    Haetaan Y-välin leikkauspiste (a):

    =INTERCEPT(C2:C25, B2:B25)

    Saadaan kaltevuus (b):

    =SLOPE(C2:C25, B2:B25)

    Lisäksi löydät korrelaatiokerroin ( Useita R regressioanalyysin yhteenvetotulosteessa), joka ilmaisee, kuinka vahvasti nämä kaksi muuttujaa liittyvät toisiinsa:

    =CORREL(B2:B25,C2:C25)

    Seuraavassa kuvakaappauksessa näkyvät kaikki nämä Excelin regressiokaavat toiminnassa:

    Vihje: Jos haluat saada lisää tilastoja regressioanalyysiäsi varten, käytä LINEST-funktiota s:n kanssa. tats parametrin arvoksi on asetettu TRUE, kuten tässä esimerkissä näytetään.

    Näin teet lineaarisen regression Excelissä. Muista kuitenkin, että Microsoft Excel ei ole tilasto-ohjelma. Jos haluat tehdä regressioanalyysin ammattilaistasolla, kannattaa käyttää kohdennettuja ohjelmistoja, kuten XLSTAT, RegressIt jne.

    Jos haluat tutustua tarkemmin lineaarisen regression kaavoihin ja muihin tässä oppaassa käsiteltyihin tekniikoihin, voit ladata alla olevan esimerkkityökirjan. Kiitos lukemisesta!

    Harjoitustyökirja

    Regressioanalyysi Excelissä - esimerkkejä (.xlsx-tiedosto)

    Michael Brown on omistautunut teknologian harrastaja, jolla on intohimo yksinkertaistaa monimutkaisia ​​prosesseja ohjelmistotyökalujen avulla. Yli vuosikymmenen kokemuksella teknologia-alalta hän on hionut taitojaan Microsoft Excelissä ja Outlookissa sekä Google Sheetsissä ja Docsissa. Michaelin blogi on omistettu jakamaan tietojaan ja asiantuntemustaan ​​muiden kanssa, ja se tarjoaa helposti seurattavia vinkkejä ja opetusohjelmia tuottavuuden ja tehokkuuden parantamiseksi. Olitpa kokenut ammattilainen tai aloittelija, Michaelin blogi tarjoaa arvokkaita oivalluksia ja käytännön neuvoja, joiden avulla saat kaiken irti näistä tärkeistä ohjelmistotyökaluista.