Tiesinė regresinė analizė programoje "Excel

  • Pasidalinti
Michael Brown

Pamokoje paaiškinami regresinės analizės pagrindai ir pateikiami keli skirtingi būdai, kaip atlikti tiesinę regresiją programoje "Excel".

Įsivaizduokite: turite daugybę įvairių duomenų ir esate paprašyti numatyti kitų metų įmonės pardavimų rodiklius. Aptikote dešimtis, o gal net šimtus veiksnių, kurie gali turėti įtakos šiems skaičiams. Tačiau kaip sužinoti, kurie iš jų iš tikrųjų yra svarbūs? Atlikite regresinę analizę "Excel" programoje. Ji padės jums atsakyti į šį ir daugelį kitų klausimų: kurie veiksniaiKaip glaudžiai šie veiksniai susiję tarpusavyje? Ir kiek galite būti tikri dėl prognozių?

    Regresinė analizė programoje "Excel" - pagrindai

    Statistinio modeliavimo srityje, regresinė analizė naudojamas dviejų ar daugiau kintamųjų ryšiams įvertinti:

    Priklausomas kintamasis (dar žinomas kaip kriterijus kintamasis) yra pagrindinis veiksnys, kurį bandote suprasti ir prognozuoti.

    Nepriklausomi kintamieji (dar žinomas kaip paaiškinimas kintamieji arba prognozės ) yra veiksniai, galintys daryti įtaką priklausomam kintamajam.

    Regresinė analizė padeda suprasti, kaip keičiasi priklausomas kintamasis, kai keičiasi vienas iš nepriklausomų kintamųjų, ir leidžia matematiškai nustatyti, kuris iš tų kintamųjų iš tikrųjų turi įtakos.

    Techniškai regresinės analizės modelis grindžiamas kvadratų suma , kuris yra matematinis būdas rasti duomenų taškų sklaidą. Modelio tikslas - gauti kuo mažesnę kvadratų sumą ir nubrėžti liniją, kuri būtų arčiausiai duomenų.

    Statistikoje skiriama paprasta ir daugialypė tiesinė regresija. Paprastoji tiesinė regresija modeliuoja priklausomo kintamojo ir vieno nepriklausomo kintamojo ryšį naudodami tiesinę funkciją. Jei priklausomam kintamajam prognozuoti naudojate du ar daugiau aiškinamųjų kintamųjų, susiduriate su daugialypė tiesinė regresija Jei priklausomas kintamasis modeliuojamas kaip netiesinė funkcija, nes duomenų ryšiai nesutampa su tiese, naudokite netiesinė regresija Vietoj to. Šioje pamokoje daugiausia dėmesio bus skiriama paprastajai tiesinei regresijai.

    Pavyzdžiui, paimkime skėčių pardavimų skaičių per pastaruosius 24 mėnesius ir sužinokime to paties laikotarpio vidutinį mėnesio kritulių kiekį. Šią informaciją pavaizduokite diagramoje ir regresijos linija parodys nepriklausomo kintamojo (kritulių kiekis) ir priklausomo kintamojo (skėčių pardavimai) ryšį:

    Tiesinės regresijos lygtis

    Matematiškai tiesinė regresija apibrėžiama šia lygtimi:

    y = bx + a + ε

    Kur:

    • x yra nepriklausomas kintamasis.
    • y yra priklausomas kintamasis.
    • a yra Y intercepcija , kuri yra tikėtina vidutinė vertė y kai visi x kintamieji yra lygūs 0. Regresijos grafike tai taškas, kuriame linija kerta Y ašį.
    • b yra nuolydis regresijos tiesės, kuri yra pokyčio greitis y kaip x pokyčiai.
    • ε yra atsitiktinės paklaidos narys, kuris yra skirtumas tarp faktinės priklausomo kintamojo vertės ir jo prognozuojamos vertės.

    Tiesinės regresijos lygtis visada turi paklaidos narį, nes realiame gyvenime prognozės niekada nebūna visiškai tikslios. Tačiau kai kurios programos, įskaitant "Excel", paklaidos narį apskaičiuoja už kadro. Taigi "Excel" programoje tiesinę regresiją atliekate naudodami mažiausių kvadratų metodą ir ieškoti koeficientų a ir b kad:

    y = bx + a

    Mūsų pavyzdyje tiesinės regresijos lygtis yra tokios formos:

    Parduoti skėčiai = b * kritulių kiekis + a

    Yra keletas skirtingų būdų, kaip rasti a ir b Trys pagrindiniai tiesinės regresinės analizės atlikimo "Excel" programoje metodai:

    • Regresijos įrankis, įtrauktas į "Analysis ToolPak
    • Sklaidos diagrama su tendencijos linija
    • Tiesinės regresijos formulė

    Toliau rasite išsamias kiekvieno metodo naudojimo instrukcijas.

    Kaip atlikti tiesinę regresiją "Excel" programoje naudojant "Analysis ToolPak

    Šiame pavyzdyje parodyta, kaip atlikti regresiją "Excel" programoje naudojant specialų įrankį, įtrauktą į "Analysis ToolPak" priedą.

    Įjunkite "Analysis ToolPak" priedą

    Analizės įrankių paketas prieinamas visose "Excel" versijose nuo 365 iki 2003 m., tačiau pagal numatytuosius nustatymus jis nėra įjungtas. Taigi, jį reikia įjungti rankiniu būdu. Štai kaip tai padaryti:

    1. "Excel" programoje spustelėkite Failas > Parinktys .
    2. Į "Excel" parinktys dialogo lange pasirinkite Papildiniai kairėje šoninėje juostoje įsitikinkite, kad "Excel" papildiniai pasirinktas Tvarkykite langelį ir spustelėkite Eikite į .
    3. Į Papildiniai dialogo lange pažymėkite Analizės įrankių paketas ir spustelėkite GERAI :

    Taip bus pridėta Duomenų analizė įrankius į Duomenys "Excel" juostos skirtuką.

    Atlikti regresinę analizę

    Šiame pavyzdyje "Excel" programa atliksime paprastą tiesinę regresiją. B stulpelyje turime sąrašą, kuriame įrašytas paskutinių 24 mėnesių vidutinis mėnesinis kritulių kiekis, kuris yra mūsų nepriklausomas kintamasis (prediktorius), o C stulpelyje - parduotų skėčių skaičius, kuris yra priklausomas kintamasis. Žinoma, yra daug kitų veiksnių, galinčių turėti įtakos pardavimams, tačiau dabar dėmesį sutelksime tik į šiuos du kintamuosius:

    Įjungę "Analysis Toolpak", atlikite šiuos veiksmus, kad atliktumėte regresinę analizę programoje "Excel":

    1. Dėl Duomenys skirtuke Analizė grupę, spustelėkite Duomenų analizė mygtuką.
    2. Pasirinkite Regresija ir spustelėkite GERAI .
    3. Į Regresija dialogo lange sukonfigūruokite šiuos nustatymus:
      • Pasirinkite Įvesties Y diapazonas , kuris yra jūsų priklausomas kintamasis Mūsų atveju tai skėčių pardavimas (C1:C25).
      • Pasirinkite Įvesties X diapazonas , t. y. jūsų nepriklausomas kintamasis Šiame pavyzdyje tai yra vidutinis mėnesio kritulių kiekis (B1:B25).

      Jei kuriate daugialypės regresijos modelį, pasirinkite du ar daugiau gretimų stulpelių su skirtingais nepriklausomais kintamaisiais.

      • Patikrinkite Etikečių dėžutė jei X ir Y intervalų viršuje yra antraštės.
      • Pasirinkite pageidaujamą Išvesties parinktis, mūsų atveju - naują darbalapį.
      • Pasirinktinai pasirinkite Likučiai žymimąjį langelį, kad gautumėte skirtumą tarp numatytų ir faktinių verčių.
    4. Spustelėkite GERAI ir stebėkite "Excel" sukurtą regresinės analizės išvestį.

    Interpretuoti regresinės analizės rezultatus

    Kaip ką tik matėte, atlikti regresiją "Excel" programa yra paprasta, nes visi skaičiavimai atliekami automatiškai. Rezultatų aiškinimas yra šiek tiek sudėtingesnis, nes reikia žinoti, kas slypi už kiekvieno skaičiaus. Toliau rasite 4 pagrindinių regresinės analizės rezultatų dalių suskirstymą.

    Regresinės analizės išvestis: Apibendrinamoji išvestis

    Šioje dalyje nurodoma, kaip gerai apskaičiuota tiesinės regresijos lygtis atitinka jūsų pradinius duomenis.

    Štai ką reiškia kiekviena informacija:

    Keli R . Tai C orreliacijos koeficientas koreliacijos koeficientas gali būti bet kokia reikšmė nuo -1 iki 1, o jo absoliutinė vertė rodo ryšio stiprumą. Kuo didesnė absoliutinė vertė, tuo stipresnis ryšys:

    • 1 reiškia stiprų teigiamą ryšį
    • -1 reiškia stiprų neigiamą ryšį
    • 0 reiškia, kad jokio ryšio nėra

    R kvadratas . Tai yra Nustatymo koeficientas , kuris naudojamas kaip tinkamumo rodiklis. Jis parodo, kiek taškų patenka ant regresijos tiesės. R2 reikšmė apskaičiuojama pagal bendrą kvadratų sumą, tiksliau, tai pradinių duomenų kvadratinių nuokrypių nuo vidurkio suma.

    Mūsų pavyzdyje R2 yra 0,91 (suapvalinta iki 2 skaitmenų), o tai yra geras rezultatas. Tai reiškia, kad 91 % mūsų reikšmių atitinka regresinės analizės modelį. Kitaip tariant, 91 % priklausomų kintamųjų (y reikšmių) paaiškina nepriklausomi kintamieji (x reikšmės). Paprastai 95 % ar didesnis R kvadratas laikomas geru atitikimu.

    Pakoreguotas R kvadratas . Tai yra R kvadratas pakoreguotas pagal nepriklausomų kintamųjų skaičių modelyje. Šią vertę norėsite naudoti vietoj R kvadratas daugybinei regresinei analizei.

    Standartinė paklaida Tai dar vienas tinkamumo matas, rodantis regresinės analizės tikslumą - kuo mažesnis skaičius, tuo labiau galite būti tikri dėl savo regresijos lygties. R2 rodo priklausomų kintamųjų dispersijos procentinę dalį, kurią paaiškina modelis, o standartinė paklaida yra absoliutus matas, rodantis vidutinį atstumą, kuriuo duomenų taškai nutolsta nuo regresijos lygties.linija.

    Pastebėjimai Tai tiesiog stebėjimų skaičius jūsų modelyje.

    Regresinės analizės rezultatai: ANOVA

    Antroji išvesties dalis - dispersinė analizė (ANOVA):

    Iš esmės jis padalina kvadratų sumą į atskiras sudedamąsias dalis, kurios suteikia informacijos apie regresijos modelio kintamumo lygius:

    • df yra laisvės laipsnių, susijusių su dispersijos šaltiniais, skaičius.
    • SS Kuo mažesnė likutinė SS, palyginti su bendra SS, tuo geriau jūsų modelis atitinka duomenis.
    • MS yra kvadratinis vidurkis.
    • F yra F statistika arba nulinės hipotezės F testas. Jis naudojamas bendram modelio reikšmingumui patikrinti.
    • Reikšmė F yra F P reikšmė.

    ANOVA dalis retai naudojama atliekant paprastą tiesinę regresinę analizę "Excel" programoje, tačiau tikrai turėtumėte atidžiai išnagrinėti paskutinį komponentą. Reikšmė F reikšmė parodo, kiek patikimi (statistiškai reikšmingi) yra jūsų rezultatai. Jei reikšmingumo F yra mažesnis nei 0,05 (5 %), jūsų modelis yra tinkamas. Jei jis didesnis nei 0,05, tikriausiai geriau pasirinkti kitą nepriklausomą kintamąjį.

    Regresinės analizės rezultatai: koeficientai

    Šiame skyriuje pateikiama konkreti informacija apie jūsų analizės sudedamąsias dalis:

    Naudingiausias šio skyriaus komponentas yra Koeficientai . Ji leidžia "Excel" programoje sudaryti tiesinės regresijos lygtį:

    y = bx + a

    Mūsų duomenų rinkinio atveju, kai y yra parduotų skėčių skaičius, o x - vidutinis mėnesio kritulių kiekis, mūsų tiesinės regresijos formulė yra tokia:

    Y = kritulių koeficientas * x + interceptas

    Jei a ir b vertės suapvalintos iki trijų skaičių po kablelio, gaunama:

    Y=0,45*x-19,074

    Pavyzdžiui, jei vidutinis mėnesio kritulių kiekis yra 82 mm, skėčių pardavimas būtų maždaug 17,8:

    0.45*82-19.074=17.8

    Panašiai galite sužinoti, kiek skėčių bus parduota su bet kokiu kitu jūsų nurodytu mėnesio kritulių kiekiu (x kintamasis).

    Regresinės analizės rezultatai: liekanos

    Jei palyginsite apskaičiuotą ir faktinį parduotų skėčių skaičių, atitinkantį 82 mm mėnesio kritulių kiekį, pamatysite, kad šie skaičiai šiek tiek skiriasi:

    • Apytikriai: 17,8 (apskaičiuota pirmiau)
    • Faktinė: 15 (šaltinio duomenų 2 eilutė)

    Kodėl toks skirtumas? Todėl, kad nepriklausomi kintamieji niekada nėra tobuli priklausomų kintamųjų prognozuotojai. O liekanos gali padėti suprasti, kiek faktinės reikšmės nutolusios nuo prognozuojamų reikšmių:

    Pirmojo duomenų taško (82 mm kritulių) liekana yra maždaug -2,8. Taigi šį skaičių pridedame prie prognozuojamos vertės ir gauname faktinę vertę: 17,8 - 2,8 = 15.

    Kaip "Excel" programoje sudaryti tiesinės regresijos grafiką

    Jei reikia greitai vizualizuoti dviejų kintamųjų ryšį, nubraižykite tiesinės regresijos diagramą. Tai labai paprasta! Štai kaip tai padaryti:

    1. Pasirinkite du stulpelius su duomenimis, įskaitant antraštes.
    2. Dėl Įdėklas skirtuke Pokalbiai grupę, spustelėkite Sklaidos diagrama piktogramą ir pasirinkite Sklaida miniatiūra (pirmoji):

      Į darbalapį bus įterptas sklaidos grafikas, kuris bus panašus į šį:

    3. Dabar reikia nubrėžti mažiausių kvadratų regresijos liniją. Norėdami tai padaryti, dešiniuoju pelės klavišu spustelėkite bet kurį tašką ir pasirinkite Pridėti Trendline... iš kontekstinio meniu.
    4. Dešiniajame lange pasirinkite Linijinis trendo linijos formą ir, pasirinktinai, patikrinti Lygties rodymas diagramoje regresijos formulę:

      Kaip pastebėjote, regresijos lygtis, kurią mums sukūrė "Excel", sutampa su tiesinės regresijos formule, kurią sudarėme pagal koeficientų išvestį.

    5. Pereikite prie Užpildyti & amp; Linija ir pritaikykite liniją pagal savo pageidavimus. Pavyzdžiui, galite pasirinkti kitokią linijos spalvą ir vietoj brūkšninės linijos naudoti vientisą liniją (pasirinkite vientisą liniją Brūkšnelio tipas langelis):

    Šiuo metu jūsų diagrama jau atrodo kaip tinkamas regresijos grafikas:

    Vis dėlto galbūt norėsite atlikti dar keletą patobulinimų:

    • Vilkite lygtį ten, kur jums atrodo tinkama.
    • Pridėti ašių pavadinimus ( Diagramos elementai mygtukas> Ašies pavadinimai ).
    • Jei jūsų duomenų taškai prasideda horizontaliosios ir (arba) vertikaliosios ašies viduryje, kaip šiame pavyzdyje, galbūt norėsite atsikratyti per didelės baltosios erdvės. Toliau pateikiamas patarimas, kaip tai padaryti: Masteliuokite diagramos ašis, kad sumažintumėte baltąją erdvę.

      Štai kaip atrodo mūsų patobulinta regresijos diagrama:

      Svarbi pastaba! Regresijos grafike nepriklausomas kintamasis visada turi būti X ašyje, o priklausomas kintamasis - Y ašyje. Jei grafikas nubraižytas atvirkštine tvarka, sukeiskite stulpelius darbalapyje vietomis, o tada grafiką braižykite iš naujo. Jei jums neleidžiama pertvarkyti pradinių duomenų, X ir Y ašis galite sukeisti tiesiogiai grafike.

    Kaip atlikti regresiją "Excel" programoje naudojant formules

    "Microsoft Excel" turi keletą statistinių funkcijų, kurios gali padėti atlikti tiesinę regresinę analizę, pavyzdžiui, LINEST, SLOPE, INTERCEPT ir CORREL.

    Funkcija LINEST naudoja mažiausių kvadratų regresijos metodą, kad apskaičiuotų tiesę, geriausiai paaiškinančią jūsų kintamųjų ryšį, ir grąžina tą tiesę apibūdinantį masyvą. Išsamų funkcijos sintaksės paaiškinimą galite rasti šiame vadovėlyje. Kol kas tiesiog sukurkime mūsų pavyzdinio duomenų rinkinio formulę:

    =LINEST(C2:C25, B2:B25)

    Kadangi funkcija LINEST grąžina reikšmių masyvą, ją reikia įvesti kaip masyvo formulę. Pasirinkite du gretimus tos pačios eilutės langelius, mūsų atveju E2:F2, įveskite formulę ir paspauskite Ctrl + Shift + Enter, kad ją užbaigtumėte.

    Formulė grąžina b koeficientas (E1) ir a konstantą (F1) jau žinomai tiesinės regresijos lygčiai:

    y = bx + a

    Jei darbalapiuose vengsite naudoti masyvų formules, galite apskaičiuoti a ir b individualiai su įprastomis formulėmis:

    Gaukite Y intercepciją (a):

    =INTERCEPT(C2:C25, B2:B25)

    Gaukite nuolydį (b):

    = NUOLYDIS(C2:C25, B2:B25)

    Be to, galite rasti koreliacijos koeficientas ( Keli R regresinės analizės suvestinėje), kuris rodo, kaip stipriai du kintamieji yra susiję vienas su kitu:

    =CORREL(B2:B25,C2:C25)

    Toliau pateiktoje ekrano nuotraukoje parodytos visos šios "Excel" regresijos formulės:

    Patarimas. Jei norite gauti papildomų statistinių duomenų regresinei analizei, naudokite LINEST funkciją su s tatuiruotės parametras nustatytas į TRUE, kaip parodyta šiame pavyzdyje.

    Taip "Excel" programoje atliekama linijinė regresija. Turėkite omenyje, kad "Microsoft Excel" nėra statistinė programa. Jei jums reikia atlikti regresinę analizę profesionaliai, galite naudoti tikslinę programinę įrangą, pvz., XLSTAT, RegressIt ir kt.

    Norėdami atidžiau susipažinti su mūsų tiesinės regresijos formulėmis ir kitais šiame vadovėlyje aptartais metodais, galite atsisiųsti mūsų pavyzdinį sąsiuvinį. Dėkojame, kad perskaitėte!

    Praktikos sąsiuvinis

    Regresinė analizė "Excel" programoje - pavyzdžiai (.xlsx failas)

    Michaelas Brownas yra atsidavęs technologijų entuziastas, mėgstantis supaprastinti sudėtingus procesus naudojant programinės įrangos įrankius. Turėdamas daugiau nei dešimtmetį patirtį technologijų pramonėje, jis patobulino savo įgūdžius „Microsoft Excel“ ir „Outlook“, taip pat „Google“ skaičiuoklėse ir dokumentuose. Michaelio tinklaraštis skirtas dalytis savo žiniomis ir patirtimi su kitais, jame pateikiami lengvai įgyvendinami patarimai ir vadovėliai, kaip pagerinti produktyvumą ir efektyvumą. Nesvarbu, ar esate patyręs profesionalas, ar pradedantysis, Michaelo tinklaraštyje rasite vertingų įžvalgų ir praktinių patarimų, kaip išnaudoti visas šių pagrindinių programinės įrangos įrankių galimybes.