Lineārā regresijas analīze programmā Excel

  • Dalīties Ar Šo
Michael Brown

Šajā pamācībā ir izskaidroti regresijas analīzes pamati un parādīti daži dažādi veidi, kā veikt lineāro regresiju programmā Excel.

Iedomājieties: jums ir pieejama virkne dažādu datu, un jums ir jāprognozē nākamā gada uzņēmuma pārdošanas rādītāji. Jūs esat atklājis desmitiem, varbūt pat simtiem faktoru, kas, iespējams, var ietekmēt šos rādītājus. Bet kā zināt, kuri no tiem ir patiešām svarīgi? Palaidiet regresijas analīzi programmā Excel. Tā sniegs jums atbildi uz šo un vēl daudziem citiem jautājumiem: kuri faktori var ietekmēt uzņēmuma pārdošanas rādītājus?kuriem faktoriem ir nozīme un kurus var ignorēt? Cik cieši šie faktori ir savstarpēji saistīti? Un cik droši jūs varat būt par prognozēm?

    Regresijas analīze programmā Excel - pamati

    Statistiskajā modelēšanā, regresijas analīze izmanto, lai novērtētu attiecības starp diviem vai vairākiem mainīgajiem lielumiem:

    Atkarīgais mainīgais (jeb kritērijs mainīgais) ir galvenais faktors, ko jūs mēģināt saprast un prognozēt.

    Neatkarīgie mainīgie (jeb paskaidrojums mainīgie vai prediktori ) ir faktori, kas varētu ietekmēt atkarīgo mainīgo.

    Regresijas analīze palīdz saprast, kā mainās atkarīgais mainīgais, mainoties vienam no neatkarīgajiem mainīgajiem, un ļauj matemātiski noteikt, kuram no šiem mainīgajiem patiešām ir ietekme.

    Tehniski regresijas analīzes modelis ir balstīts uz kvadrātu summa , kas ir matemātisks veids, kā atrast datu punktu izkliedi. Modeļa mērķis ir iegūt pēc iespējas mazāku kvadrātu summu un uzzīmēt līniju, kas ir vistuvāk datiem.

    Statistikā izšķir vienkāršo un daudzkārtējo lineāro regresiju. Vienkāršā lineārā regresija modelē sakarību starp atkarīgo mainīgo un vienu neatkarīgo mainīgo, izmantojot lineāru funkciju. Ja atkarīgā mainīgā prognozēšanai izmanto divus vai vairākus skaidrojošos mainīgos, tad ir jārisina jautājums par. daudzkārtēja lineārā regresija Ja atkarīgais mainīgais tiek modelēts kā nelineāra funkcija, jo datu sakarības nesakrīt ar taisnu līniju, izmantojiet nelineārā regresija Šajā pamācībā galvenā uzmanība tiks pievērsta vienkāršai lineārajai regresijai.

    Kā piemēru ņemsim lietussargu pārdošanas rādītājus par pēdējiem 24 mēnešiem un noskaidrosim mēneša vidējo nokrišņu daudzumu tajā pašā periodā. Uzzīmējiet šo informāciju grafikā, un regresijas līnija parādīs saistību starp neatkarīgo mainīgo (nokrišņu daudzumu) un atkarīgo mainīgo (lietussargu pārdošanu):

    Lineārās regresijas vienādojums

    Matemātiski lineāro regresiju definē ar šo vienādojumu:

    y = bx + a + ε

    Kur:

    • x ir neatkarīgs mainīgais lielums.
    • y ir atkarīgs mainīgais lielums.
    • a ir Y-intercepcija , kas ir sagaidāmā vidējā vērtība y kad visi x mainīgie ir vienādi ar 0. Regresijas grafikā tas ir punkts, kurā līnija šķērso Y asi.
    • b ir slīpums regresijas līnija, kas ir izmaiņu ātrums attiecībā uz y x izmaiņas.
    • ε ir nejaušās kļūdas lielums, kas ir starpība starp atkarīgā mainīgā lieluma faktisko vērtību un tā prognozēto vērtību.

    Lineārās regresijas vienādojumam vienmēr ir kļūdas lielums, jo reālajā dzīvē prognozētāji nekad nav pilnīgi precīzi. Tomēr dažas programmas, tostarp Excel, kļūdas lieluma aprēķinu veic aizkulisēs. Tādējādi Excel programmā jūs veicat lineāro regresiju, izmantojot vienumu vismazākie kvadrāti metode un meklēt koeficientus a un b tā, ka:

    y = bx + a

    Mūsu piemērā lineārās regresijas vienādojumam ir šāda forma:

    Pārdotie lietussargi = b * nokrišņu daudzums + a

    Pastāv vairāki veidi, kā atrast a un b Trīs galvenās metodes lineārās regresijas analīzes veikšanai programmā Excel ir šādas:

    • Regresijas rīks, kas iekļauts Analysis ToolPak komplektā
    • Izkliedes diagramma ar tendences līniju
    • Lineārās regresijas formula

    Zemāk atradīsiet detalizētus norādījumus par katras metodes lietošanu.

    Kā veikt lineāro regresiju programmā Excel, izmantojot Analysis ToolPak

    Šajā piemērā parādīts, kā veikt regresiju programmā Excel, izmantojot īpašu rīku, kas iekļauts Analysis ToolPak papildinājumā.

    Analīzes rīku pakotnes Analysis ToolPak pievienojumprogrammas aktivizēšana

    Analysis ToolPak ir pieejams visās Excel versijās no 365 līdz 2003, taču pēc noklusējuma tas nav ieslēgts. Tāpēc tas ir jāieslēdz manuāli. Lūk, kā to izdarīt:

    1. Programmā Excel noklikšķiniet uz Faili > Iespējas .
    2. In the Excel opcijas dialoglodziņā izvēlieties Papildinājumi kreisajā sānjoslā, pārliecinieties, ka Excel papildinājumi ir atlasīts Pārvaldiet un noklikšķiniet uz Go .
    3. In the Papildinājumi dialoglodziņā atzīmējiet Analīzes rīku pakotne un noklikšķiniet uz LABI :

    Tas pievienos Datu analīze rīkus, lai Dati Excel lentes cilnē.

    Veikt regresijas analīzi

    Šajā piemērā mēs veiksim vienkāršu lineāro regresiju programmā Excel. Mums ir saraksts ar vidējo mēneša nokrišņu daudzumu pēdējo 24 mēnešu laikā B slejā, kas ir mūsu neatkarīgais mainīgais (prognozētājs), un pārdoto lietussargu skaits C slejā, kas ir atkarīgais mainīgais. Protams, ir vēl daudzi citi faktori, kas var ietekmēt pārdošanas apjomus, bet pagaidām mēs pievērsīsimies tikai šiem diviem mainīgajiem:

    Ja ir iespējots pievienotais Analysis Toolpak, veiciet šādas darbības, lai veiktu regresijas analīzi programmā Excel:

    1. Par Dati cilnē Analīze grupa, noklikšķiniet uz Datu analīze pogu.
    2. Atlasiet Regresija un noklikšķiniet uz LABI .
    3. In the Regresija dialoglodziņā konfigurējiet šādus iestatījumus:
      • Izvēlieties Ieejas Y diapazons , kas ir jūsu atkarīgais mainīgais Mūsu gadījumā tā ir lietussargu pārdošana (C1:C25).
      • Izvēlieties Ieejas X diapazons , t. i., jūsu neatkarīgais mainīgais Šajā piemērā tas ir mēneša vidējais nokrišņu daudzums (B1:B25).

      Ja veidojat daudzkārtējas regresijas modeli, atlasiet divas vai vairākas blakus esošas kolonnas ar dažādiem neatkarīgajiem mainīgajiem.

      • Pārbaudiet Etiķešu kaste ja X un Y diapazonu augšpusē ir galvenes.
      • Izvēlieties vēlamo Izvades opcija, mūsu gadījumā - jaunu darblapu.
      • Pēc izvēles atlasiet Atlikumi izvēles rūtiņu, lai iegūtu starpību starp prognozētajām un faktiskajām vērtībām.
    4. Noklikšķiniet uz LABI un novērojiet regresijas analīzes rezultātu, ko izveidojis Excel.

    Regresijas analīzes rezultātu interpretēšana

    Kā tikko redzējāt, veikt regresiju programmā Excel ir viegli, jo visi aprēķini tiek veikti automātiski. Rezultātu interpretācija ir nedaudz sarežģītāka, jo jums ir jāzina, kas slēpjas aiz katra skaitļa. Turpmāk atradīsiet regresijas analīzes rezultātu 4 galveno daļu sadalījumu.

    Regresijas analīzes rezultāti: kopsavilkuma rezultāti

    Šī daļa parāda, cik labi aprēķinātais lineārās regresijas vienādojums atbilst jūsu avota datiem.

    Lūk, ko nozīmē katra informācija:

    Vairāki R . Tas ir C orrelācijas koeficients korelācijas koeficients var būt jebkura vērtība no -1 līdz 1, un tā absolūtā vērtība norāda sakarības stiprumu. Jo lielāka absolūtā vērtība, jo stiprāka sakarība:

    • 1 nozīmē spēcīgu pozitīvu saikni
    • -1 nozīmē spēcīgu negatīvu attiecību
    • 0 nozīmē, ka attiecības vispār nav.

    R kvadrāts . Tas ir Noteicošais koeficients , ko izmanto kā atbilstības labuma rādītāju. Tas parāda, cik daudz punktu atrodas uz regresijas līnijas. R2 vērtību aprēķina no kopējās kvadrātu summas, precīzāk, tā ir sākotnējo datu kvadrātu noviržu summa no vidējā.

    Mūsu piemērā R2 ir 0,91 (noapaļots līdz 2 cipariem), kas ir labi. Tas nozīmē, ka 91 % mūsu vērtību atbilst regresijas analīzes modelim. Citiem vārdiem sakot, 91 % atkarīgo mainīgo (y vērtības) izskaidro neatkarīgie mainīgie (x vērtības). Parasti par labu atbilstību uzskata R kvadrātu 95 % vai vairāk.

    Koriģētais R kvadrāts . Tas ir R kvadrāts koriģēts atbilstoši neatkarīgo mainīgo modeļa mainīgo skaitam. Jūs vēlaties izmantot šo vērtību, nevis R kvadrāts daudzkārtējai regresijas analīzei.

    Standarta kļūda Tas ir vēl viens labās atbilstības rādītājs, kas parāda jūsu regresijas analīzes precizitāti - jo mazāks skaitlis, jo pārliecinātāks varat būt par savu regresijas vienādojumu. R2 parāda atkarīgo mainīgo dispersijas procentuālo daļu, ko izskaidro modelis, savukārt standarta kļūda ir absolūts rādītājs, kas parāda vidējo attālumu, kādā datu punkti atrodas no regresijas vienādojuma.līnija.

    Novērojumi Tas ir vienkārši novērojumu skaits jūsu modelī.

    Regresijas analīzes rezultāti: ANOVA

    Otrā izejas daļa ir Varianču analīze (ANOVA):

    Būtībā tas sadala kvadrātu summu atsevišķās komponentēs, kas sniedz informāciju par mainīguma līmeņiem regresijas modelī:

    • df ir ar dispersijas avotiem saistīto brīvības pakāpju skaits.
    • SS Jo mazāka atlikusī SS salīdzinājumā ar kopējo SS, jo labāk jūsu modelis atbilst datiem.
    • MS ir vidējais kvadrāts.
    • F ir F statistika jeb nulles hipotēzes F tests. To izmanto, lai pārbaudītu modeļa vispārējo nozīmīgumu.
    • Nozīme F ir F P vērtība.

    ANOVA daļa reti tiek izmantota vienkāršā lineārā regresijas analīzē programmā Excel, taču jums noteikti vajadzētu rūpīgi aplūkot pēdējo komponentu. Nozīme F vērtība sniedz priekšstatu par to, cik ticami (statistiski nozīmīgi) ir jūsu rezultāti. Ja Significance F ir mazāks par 0,05 (5 %), jūsu modelis ir kārtībā. Ja tā ir lielāka par 0,05, iespējams, labāk izvēlēties citu neatkarīgo mainīgo.

    Regresijas analīzes rezultāti: koeficienti

    Šajā sadaļā ir sniegta konkrēta informācija par jūsu analīzes sastāvdaļām:

    Noderīgākā šīs sadaļas sastāvdaļa ir Koeficienti Tas ļauj izveidot lineārās regresijas vienādojumu programmā Excel:

    y = bx + a

    Mūsu datu kopai, kurā y ir pārdoto lietussargu skaits un x ir mēneša vidējais nokrišņu daudzums, mūsu lineārās regresijas formula ir šāda:

    Y = nokrišņu koeficients * x + intercepcija

    Ar a un b vērtībām, kas noapaļotas līdz trim zīmēm aiz komata, tas ir:

    Y=0,45*x-19,074

    Piemēram, ja mēneša vidējais nokrišņu daudzums ir 82 mm, lietussargu pārdošanas apjoms būtu aptuveni 17,8:

    0.45*82-19.074=17.8

    Līdzīgā veidā varat noskaidrot, cik lietussargu tiks pārdoti ar jebkuru citu jūsu norādīto mēneša nokrišņu daudzumu (x mainīgais).

    Regresijas analīzes rezultāti: atlikumi

    Ja salīdzināsiet aprēķināto un faktisko pārdoto lietussargu skaitu, kas atbilst mēneša nokrišņu daudzumam 82 mm, redzēsiet, ka šie skaitļi nedaudz atšķiras:

    • Paredzamais: 17,8 (aprēķināts iepriekš)
    • Faktiskais: 15 (avota datu 2. rinda)

    Kāda ir atšķirība? Tāpēc, ka neatkarīgie mainīgie nekad nav ideāli prognozējoši atkarīgajiem mainīgajiem. Un atlikumi var palīdzēt saprast, cik tālu faktiskās vērtības atšķiras no prognozētajām vērtībām:

    Pirmajam datu punktam (nokrišņu daudzums 82 mm) atlikusī vērtība ir aptuveni -2,8. Tātad šo skaitli pieskaita prognozētajai vērtībai un iegūst faktisko vērtību: 17,8 - 2,8 = 15.

    Kā izveidot lineārās regresijas grafiku programmā Excel

    Ja nepieciešams ātri vizualizēt divu mainīgo attiecību, uzzīmējiet lineārās regresijas diagrammu. Tas ir ļoti vienkārši! Lūk, kā to izdarīt:

    1. Atlasiet abas kolonnas ar datiem, tostarp galvenes.
    2. Par Ievietotie cilnē Tērzēšanas grupa, noklikšķiniet uz Izkliedes diagramma ikonu un izvēlieties Izkliedēt miniatūru (pirmo):

      Tādējādi darblapā tiks ievietots izkliedes grafiks, kas būs līdzīgs šim:

    3. Tagad mums ir jāuzzīmē vismazāko kvadrātu regresijas līnija. Lai to izdarītu, noklikšķiniet ar peles labo pogu uz jebkura punkta un izvēlieties Pievienot Trendline... no konteksta izvēlnes.
    4. Labajā panelī atlasiet Lineārais tendences līnijas formu un, pēc izvēles, pārbaudīt Vienādojuma parādīšana diagrammā lai iegūtu regresijas formulu:

      Kā var pamanīt, regresijas vienādojums, ko Excel mums ir izveidojis, ir tāds pats kā lineārās regresijas formula, ko mēs izveidojām, pamatojoties uz Koeficientu izvades rezultātu.

    5. Pārslēdzieties uz Aizpildīt & amp; līnija un pielāgojiet līniju pēc savām vēlmēm. Piemēram, varat izvēlēties citu līnijas krāsu un pārtrauktās līnijas vietā izmantot vienlaidu līniju (izvēlieties vienlaidu līnija cilnē Svītru zīmes tips lodziņš):

    Šajā brīdī jūsu diagramma jau izskatās kā pienācīgs regresijas grafiks:

    Tomēr, iespējams, vēlēsieties veikt vēl dažus uzlabojumus:

    • Velciet vienādojumu, kad vienādojums jums šķiet piemērots.
    • Pievienot asu nosaukumus ( Diagrammas elementi pogu> Axis virsraksti ).
    • Ja jūsu datu punkti sākas horizontālās un/vai vertikālās ass vidū, kā šajā piemērā, iespējams, vēlaties atbrīvoties no pārlieku lielās baltās zonas. Nākamajā padomā ir izskaidrots, kā to izdarīt: Mērogo diagrammas asis, lai samazinātu balto zonu.

      Lūk, kā izskatās mūsu uzlabotais regresijas grafiks:

      Svarīga piezīme! Regresijas grafikā neatkarīgajam mainīgajam vienmēr jābūt uz X ass, bet atkarīgajam mainīgajam - uz Y ass. Ja grafiks ir uzzīmēts pretējā secībā, apmainiet kolonnas darblapā un pēc tam grafiku uzzīmējiet no jauna. Ja nav atļauts pārkārtot avota datus, tad X un Y asis var pārvietot tieši grafikā.

    Kā veikt regresiju programmā Excel, izmantojot formulas

    Microsoft Excel ir dažas statistiskās funkcijas, kas var palīdzēt veikt lineāro regresijas analīzi, piemēram, LINEST, SLOPE, INTERCEPT un CORREL.

    LINEST funkcija izmanto mazāko kvadrātu regresijas metodi, lai aprēķinātu taisni, kas vislabāk izskaidro saistību starp jūsu mainīgajiem, un atgriež masīvu, kas apraksta šo taisni. Sīkāku funkcijas sintakses skaidrojumu varat atrast šajā pamācībā. Pagaidām vienkārši izveidosim formulu mūsu datu kopas paraugam:

    =LINEST(C2:C25, B2:B25)

    Tā kā LINEST funkcija atgriež vērtību masīvu, tā jāievada kā masīva formula. Atlasiet divas blakus esošas šūnas vienā rindā, mūsu gadījumā E2:F2, ierakstiet formulu un nospiediet Ctrl + Shift + Enter, lai to pabeigtu.

    Formula atgriež b koeficients (E1) un a konstante (F1) jau pazīstamajam lineārās regresijas vienādojumam:

    y = bx + a

    Ja izvairāties no masīva formulu izmantošanas darblapās, varat aprēķināt. a un b individuāli ar regulārām formulām:

    Iegūstiet Y-intercepciju (a):

    =INTERCEPT(C2:C25, B2:B25)

    Iegūstiet slīpumu (b):

    = SLOPE(C2:C25, B2:B25)

    Turklāt varat atrast korelācijas koeficients ( Vairāki R regresijas analīzes kopsavilkuma izvadā), kas norāda, cik cieši abi mainīgie ir savstarpēji saistīti:

    =CORREL(B2:B25,C2:C25)

    Tālāk redzamajā ekrānšāviņas attēlā ir parādītas visas šīs Excel regresijas formulas darbībā:

    Padoms. Ja vēlaties iegūt papildu statistiku regresijas analīzei, izmantojiet LINEST funkciju ar s tetovējumi parametrs ir iestatīts uz TRUE, kā parādīts šajā piemērā.

    Tas ir veids, kā veikt lineāro regresiju programmā Excel. Tomēr paturiet prātā, ka Microsoft Excel nav statistikas programma. Ja jums ir nepieciešams veikt regresijas analīzi profesionālā līmenī, jūs, iespējams, vēlaties izmantot mērķprogrammatūru, piemēram, XLSTAT, RegressIt u. c.

    Lai tuvāk iepazītos ar mūsu lineārās regresijas formulām un citām šajā pamācībā aplūkotajām metodēm, varat lejupielādēt mūsu darba burtnīcu paraugu zemāk. Paldies, ka izlasījāt!

    Prakses darba burtnīca

    Regresijas analīze programmā Excel - piemēri (.xlsx fails)

    Maikls Brauns ir īpašs tehnoloģiju entuziasts, kura aizraušanās ir sarežģītu procesu vienkāršošana, izmantojot programmatūras rīkus. Ar vairāk nekā desmit gadu pieredzi tehnoloģiju nozarē viņš ir pilnveidojis savas prasmes programmās Microsoft Excel un Outlook, kā arī Google izklājlapās un dokumentos. Maikla emuārs ir veltīts tam, lai dalītos savās zināšanās un pieredzē ar citiem, sniedzot viegli izpildāmus padomus un pamācības produktivitātes un efektivitātes uzlabošanai. Neatkarīgi no tā, vai esat pieredzējis profesionālis vai iesācējs, Maikla emuārs piedāvā vērtīgas atziņas un praktiskus padomus, kā maksimāli izmantot šos būtiskos programmatūras rīkus.