Lineárna regresná analýza v programe Excel

  • Zdieľajte To
Michael Brown

V učebnici sa vysvetľujú základy regresnej analýzy a ukazuje sa niekoľko rôznych spôsobov, ako v programe Excel vykonať lineárnu regresiu.

Predstavte si toto: máte k dispozícii množstvo rôznych údajov a máte predpovedať budúcoročné predajné čísla vašej spoločnosti. Objavili ste desiatky, možno dokonca stovky faktorov, ktoré môžu ovplyvniť čísla. Ale ako viete, ktoré z nich sú skutočne dôležité? Spustite regresnú analýzu v programe Excel. Dá vám odpoveď na túto a mnohé ďalšie otázky: Ktoré faktoryNa čom záleží a ktoré možno ignorovať? Ako úzko tieto faktory navzájom súvisia? A nakoľko si môžete byť istí svojimi predikciami?

    Regresná analýza v programe Excel - základy

    V štatistickom modelovaní, regresná analýza sa používa na odhad vzťahov medzi dvoma alebo viacerými premennými:

    Závislá premenná (alias kritérium premenná) je hlavným faktorom, ktorý sa snažíte pochopiť a predpovedať.

    Nezávislé premenné (alias vysvetlivky premenné alebo prediktory ) sú faktory, ktoré môžu ovplyvniť závislú premennú.

    Regresná analýza pomáha pochopiť, ako sa mení závislá premenná, keď sa mení jedna z nezávislých premenných, a umožňuje matematicky určiť, ktorá z týchto premenných má skutočný vplyv.

    Z technického hľadiska je model regresnej analýzy založený na súčet štvorcov , čo je matematický spôsob, ako zistiť rozptyl dátových bodov. Cieľom modelu je získať čo najmenší súčet štvorcov a nakresliť priamku, ktorá sa najviac približuje k údajom.

    V štatistike sa rozlišuje medzi jednoduchou a viacnásobnou lineárnou regresiou. Jednoduchá lineárna regresia modeluje vzťah medzi závislou premennou a jednou nezávislou premennou pomocou lineárnej funkcie. Ak na predpovedanie závislej premennej použijete dve alebo viac vysvetľujúcich premenných, zaoberáte sa viacnásobná lineárna regresia Ak je závislá premenná modelovaná ako nelineárna funkcia, pretože vzťahy medzi údajmi nesledujú priamku, použite nelineárna regresia Namiesto toho sa v tomto učebnom texte zameriame na jednoduchú lineárnu regresiu.

    Ako príklad si zoberme údaje o predaji dáždnikov za posledných 24 mesiacov a zistime priemerný mesačný úhrn zrážok za rovnaké obdobie. Tieto informácie zakreslíme do grafu a regresná priamka ukáže vzťah medzi nezávislou premennou (úhrn zrážok) a závislou premennou (predaj dáždnikov):

    Rovnica lineárnej regresie

    Matematicky je lineárna regresia definovaná touto rovnicou:

    y = bx + a + ε

    Kde:

    • x je nezávislá premenná.
    • y je závislá premenná.
    • a je Y-intercept , čo je očakávaná stredná hodnota y keď všetky x Na regresnom grafe je to bod, v ktorom priamka pretína os Y.
    • b je sklon regresnej priamky, ktorá je rýchlosťou zmeny pre y ako x zmeny.
    • ε je člen náhodnej chyby, ktorý predstavuje rozdiel medzi skutočnou hodnotou závislej premennej a jej predpovedanou hodnotou.

    Rovnica lineárnej regresie vždy obsahuje chybový člen, pretože v reálnom živote nie sú prediktory nikdy dokonale presné. Niektoré programy vrátane programu Excel však výpočet chybového člena vykonávajú v pozadí. V programe Excel teda vykonávate lineárnu regresiu pomocou príkazu najmenšie štvorce metóda a hľadanie koeficientov a a b tak, že:

    y = bx + a

    V našom príklade má lineárna regresná rovnica nasledujúci tvar:

    Predané dáždniky = b * zrážky + a

    Existuje niekoľko rôznych spôsobov, ako nájsť a a b Tri hlavné metódy na vykonanie lineárnej regresnej analýzy v programe Excel sú:

    • Regresný nástroj zahrnutý v balíku Analysis ToolPak
    • Graf rozptylu s trendovou čiarou
    • Vzorec lineárnej regresie

    Nižšie nájdete podrobné pokyny na použitie jednotlivých metód.

    Ako vykonať lineárnu regresiu v programe Excel pomocou nástroja Analysis ToolPak

    Tento príklad ukazuje, ako spustiť regresiu v programe Excel pomocou špeciálneho nástroja, ktorý je súčasťou doplnku Analysis ToolPak.

    Povolenie doplnku Analysis ToolPak

    Nástroj Analysis ToolPak je k dispozícii vo všetkých verziách programu Excel 365 až 2003, ale nie je predvolene zapnutý. Preto ho musíte zapnúť ručne. Tu je uvedený postup:

    1. V programe Excel kliknite na položku Súbor > Možnosti .
    2. V Možnosti aplikácie Excel dialógové okno, vyberte Doplnky na ľavom bočnom paneli skontrolujte, či Doplnky programu Excel je vybraný v Spravujte stránku a kliknite na tlačidlo Prejsť na stránku .
    3. V Doplnky dialógové okno, začiarknite políčko Balík nástrojov na analýzu a kliknite na tlačidlo OK :

    Tým sa pridá Analýza údajov nástroje na Údaje na páse kariet aplikácie Excel.

    Spustite regresnú analýzu

    V tomto príklade urobíme jednoduchú lineárnu regresiu v programe Excel. V stĺpci B máme zoznam priemerných mesačných zrážok za posledných 24 mesiacov, čo je naša nezávislá premenná (prediktor), a v stĺpci C počet predaných dáždnikov, čo je závislá premenná. Samozrejme, existuje mnoho ďalších faktorov, ktoré môžu ovplyvniť predaj, ale teraz sa zameriame len na tieto dve premenné:

    Po pridaní Analysis Toolpak vykonajte tieto kroky na vykonanie regresnej analýzy v programe Excel:

    1. Na Údaje na karte Analýza kliknite na skupinu Analýza údajov tlačidlo.
    2. Vyberte Regresia a kliknite na OK .
    3. V Regresia v dialógovom okne nakonfigurujte nasledujúce nastavenia:
      • Vyberte Vstupný rozsah Y , čo je vaša závislá premenná V našom prípade je to predaj dáždnikov (C1:C25).
      • Vyberte Vstupný rozsah X , t. j. vaše nezávislá premenná V tomto príklade je to priemerný mesačný úhrn zrážok (B1:B25).

      Ak vytvárate viacnásobný regresný model, vyberte dva alebo viac susedných stĺpcov s rôznymi nezávislými premennými.

      • Skontrolujte Krabica na štítky ak sú v hornej časti rozsahov X a Y hlavičky.
      • Vyberte si preferované Možnosť výstupu, nový pracovný hárok v našom prípade.
      • Voliteľne vyberte Zvyšky zaškrtávacie políčko na získanie rozdielu medzi predpokladanými a skutočnými hodnotami.
    4. Kliknite na . OK a sledujte výstup regresnej analýzy vytvorený programom Excel.

    Interpretácia výstupu regresnej analýzy

    Ako ste práve videli, spustenie regresie v programe Excel je jednoduché, pretože všetky výpočty sa vykonávajú automaticky. Interpretácia výsledkov je trochu zložitejšia, pretože musíte vedieť, čo sa skrýva za jednotlivými číslami. Nižšie nájdete rozdelenie 4 hlavných častí výstupu regresnej analýzy.

    Výstup regresnej analýzy: Súhrnný výstup

    V tejto časti sa dozviete, ako dobre vypočítaná rovnica lineárnej regresie zodpovedá vašim zdrojovým údajom.

    Tu nájdete informácie o tom, čo jednotlivé informácie znamenajú:

    Viaceré R . Je to C alebo korelačný koeficient ktorý meria silu lineárneho vzťahu medzi dvoma premennými. Korelačný koeficient môže mať ľubovoľnú hodnotu od -1 do 1 a jeho absolútna hodnota udáva silu vzťahu. Čím je absolútna hodnota väčšia, tým je vzťah silnejší:

    • 1 znamená silný pozitívny vzťah
    • -1 znamená silný negatívny vzťah
    • 0 znamená žiadny vzťah

    R Square . Je to Koeficient stanovenia , ktorý sa používa ako ukazovateľ dobrej zhody. Ukazuje, koľko bodov pripadá na regresnú priamku. Hodnota R2 sa vypočíta z celkového súčtu štvorcov, presnejšie je to súčet štvorcových odchýlok pôvodných údajov od priemeru.

    V našom príklade je R2 0,91 (zaokrúhlené na 2 číslice), čo je rozprávkovo dobré. Znamená to, že 91 % našich hodnôt zodpovedá modelu regresnej analýzy. Inými slovami, 91 % závislých premenných (hodnoty y) je vysvetlených nezávislými premennými (hodnoty x). Vo všeobecnosti sa za dobrú zhodu považuje hodnota R Squared 95 % alebo viac.

    Upravené R štvorce . Je to R štvorec upravená podľa počtu nezávislých premenných v modeli. Túto hodnotu budete chcieť použiť namiesto R štvorec pre viacnásobnú regresnú analýzu.

    Štandardná chyba Je to ďalšia miera dobrej zhody, ktorá ukazuje presnosť regresnej analýzy - čím je toto číslo menšie, tým si môžete byť istejší svojou regresnou rovnicou. Zatiaľ čo R2 predstavuje percento rozptylu závislej premennej, ktoré je vysvetlené modelom, štandardná chyba je absolútna miera, ktorá ukazuje priemernú vzdialenosť, v akej sa dátové body nachádzajú od regresnej rovnice.linka.

    Pozorovania Je to jednoducho počet pozorovaní vo vašom modeli.

    Výstup regresnej analýzy: ANOVA

    Druhou časťou výstupu je analýza rozptylu (ANOVA):

    V podstate rozdeľuje súčet štvorcov na jednotlivé zložky, ktoré poskytujú informácie o úrovniach variability v rámci regresného modelu:

    • df je počet stupňov voľnosti spojených so zdrojmi rozptylu.
    • SS Čím menšia je zostatková SS v porovnaní s celkovou SS, tým lepšie váš model zodpovedá údajom.
    • MS je stredná kvadratická hodnota.
    • F je štatistika F alebo F-test pre nulovú hypotézu. Používa sa na testovanie celkovej významnosti modelu.
    • Významnosť F je P-hodnota F.

    Časť ANOVA sa pri jednoduchej lineárnej regresnej analýze v programe Excel používa len zriedka, ale určite by ste sa mali pozorne pozrieť na poslednú zložku. Významnosť F hodnota poskytuje predstavu o tom, aké spoľahlivé (štatisticky významné) sú vaše výsledky. Ak je signifikancia F menšia ako 0,05 (5 %), váš model je v poriadku. Ak je väčšia ako 0,05, pravdepodobne by bolo lepšie zvoliť inú nezávislú premennú.

    Výstup regresnej analýzy: koeficienty

    Táto časť obsahuje konkrétne informácie o zložkách vašej analýzy:

    Najužitočnejšou zložkou v tejto časti je Koeficienty Umožňuje zostaviť rovnicu lineárnej regresie v programe Excel:

    y = bx + a

    Pre náš súbor údajov, kde y je počet predaných dáždnikov a x je priemerný mesačný úhrn zrážok, náš lineárny regresný vzorec vyzerá takto:

    Y = Koeficient zrážok * x + Intercept

    Po doplnení hodnôt a a b zaokrúhlených na tri desatinné miesta vznikne:

    Y=0,45*x-19,074

    Napríklad pri priemernom mesačnom úhrne zrážok 82 mm by predaj dáždnikov predstavoval približne 17,8:

    0.45*82-19.074=17.8

    Podobným spôsobom môžete zistiť, koľko dáždnikov sa predá s akýmkoľvek iným mesačným úhrnom zrážok (premenná x), ktorý zadáte.

    Výstup regresnej analýzy: rezíduá

    Ak porovnáte odhadovaný a skutočný počet predaných dáždnikov zodpovedajúci mesačnému úhrnu zrážok 82 mm, zistíte, že tieto čísla sa mierne líšia:

    • Odhad: 17,8 (vypočítané vyššie)
    • Skutočnosť: 15 (riadok 2 zdrojových údajov)

    Prečo je v tom rozdiel? Pretože nezávislé premenné nikdy nie sú dokonalými prediktormi závislých premenných. A rezíduá vám môžu pomôcť pochopiť, ako ďaleko sú skutočné hodnoty od predpovedaných hodnôt:

    Pre prvý údajový bod (zrážky 82 mm) je rezíduum približne -2,8. Toto číslo teda pripočítame k predpovedanej hodnote a dostaneme skutočnú hodnotu: 17,8 - 2,8 = 15.

    Ako vytvoriť lineárny regresný graf v programe Excel

    Ak potrebujete rýchlo vizualizovať vzťah medzi dvoma premennými, nakreslite lineárny regresný graf. Je to veľmi jednoduché! Tu je návod, ako na to:

    1. Vyberte dva stĺpce s údajmi vrátane záhlaví.
    2. Na Vložka na karte Chaty kliknite na skupinu Graf rozptylu a vyberte ikonu Rozptyl miniatúra (prvá):

      Tým sa do pracovného hárku vloží graf rozptylu, ktorý sa bude podobať tomuto:

    3. Teraz musíme nakresliť regresnú priamku najmenších štvorcov. Ak to chcete urobiť, kliknite pravým tlačidlom myši na ľubovoľný bod a vyberte položku Pridať trendovú čiaru... z kontextového menu.
    4. Na pravom paneli vyberte Lineárne tvar trendovej čiary a prípadne skontrolovať Zobrazenie rovnice na grafe na získanie regresného vzorca:

      Ako ste si mohli všimnúť, regresná rovnica, ktorú pre nás vytvoril Excel, je rovnaká ako vzorec lineárnej regresie, ktorý sme zostavili na základe výstupu Koeficienty.

    5. Prepnite na Výplň & Riadok a prispôsobte si čiaru podľa svojich predstáv. Môžete napríklad zvoliť inú farbu čiary a použiť plnú čiaru namiesto prerušovanej (vyberte položku Plná čiara v ponuke Typ pomlčky box):

    V tejto chvíli už váš graf vyzerá ako slušný regresný graf:

    Napriek tomu možno budete chcieť vykonať niekoľko ďalších vylepšení:

    • Presuňte rovnicu, kamkoľvek uznáte za vhodné.
    • Pridanie názvov osí ( Prvky grafu tlačidlo> Názvy osí ).
    • Ak vaše dátové body začínajú uprostred horizontálnej a/alebo vertikálnej osi ako v tomto príklade, možno sa budete chcieť zbaviť nadmerného bieleho priestoru. Nasledujúci tip vysvetľuje, ako to urobiť: Zmenšite mierku osí grafu, aby ste zmenšili biely priestor.

      Takto vyzerá náš vylepšený regresný graf:

      Dôležitá poznámka! V regresnom grafe by mala byť nezávislá premenná vždy na osi X a závislá premenná na osi Y. Ak je váš graf vykreslený v opačnom poradí, prehoďte stĺpce v pracovnom hárku a potom nakreslite graf nanovo. Ak nemáte možnosť zmeniť poradie zdrojových údajov, môžete prehodiť osi X a Y priamo v grafe.

    Ako vykonať regresiu v programe Excel pomocou vzorcov

    Microsoft Excel má niekoľko štatistických funkcií, ktoré vám môžu pomôcť pri lineárnej regresnej analýze, ako napríklad LINEST, SLOPE, INTERCEPT a CORREL.

    Funkcia LINEST používa metódu regresie najmenších štvorcov na výpočet priamky, ktorá najlepšie vysvetľuje vzťah medzi vašimi premennými, a vracia pole opisujúce túto priamku. Podrobné vysvetlenie syntaxe funkcie nájdete v tomto návode. Zatiaľ len vytvorme vzorec pre náš vzorový súbor údajov:

    =LINEST(C2:C25, B2:B25)

    Keďže funkcia LINEST vracia pole hodnôt, musíte ju zadať ako vzorec poľa. Vyberte dve susedné bunky v tom istom riadku, v našom prípade E2:F2, zadajte vzorec a stlačte klávesovú skratku Ctrl + Shift + Enter, aby ste ho dokončili.

    Vzorec vracia b koeficient (E1) a a konštanta (F1) pre už známu lineárnu regresnú rovnicu:

    y = bx + a

    Ak sa v pracovných listoch vyhnete používaniu vzorcov polí, môžete vypočítať a a b jednotlivo pomocou pravidelných vzorcov:

    Získajte intercept Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Získajte sklon (b):

    =SLOPE(C2:C25, B2:B25)

    Okrem toho môžete nájsť korelačný koeficient ( Viaceré R v súhrnnom výstupe regresnej analýzy), ktorý udáva, ako silne sú tieto dve premenné navzájom prepojené:

    =CORREL(B2:B25,C2:C25)

    Nasledujúci obrázok zobrazuje všetky tieto regresné vzorce programu Excel v praxi:

    Tip. Ak chcete získať ďalšie štatistiky pre regresnú analýzu, použite funkciu LINEST s príponou s tetovania parameter nastavený na TRUE, ako je uvedené v tomto príklade.

    Takto sa vykonáva lineárna regresia v programe Excel. Napriek tomu majte na pamäti, že Microsoft Excel nie je štatistický program. Ak potrebujete vykonávať regresnú analýzu na profesionálnej úrovni, možno budete chcieť použiť cielený softvér, ako napríklad XLSTAT, RegressIt atď.

    Ak sa chcete bližšie zoznámiť s našimi vzorcami lineárnej regresie a ďalšími technikami, o ktorých sa hovorí v tomto návode, môžete si stiahnuť náš vzorový zošit uvedený nižšie. Ďakujeme za prečítanie!

    Cvičný zošit

    Regresná analýza v programe Excel - príklady (.xlsx súbor)

    Michael Brown je nadšený technologický nadšenec s vášňou pre zjednodušovanie zložitých procesov pomocou softvérových nástrojov. S viac ako desaťročnými skúsenosťami v technologickom priemysle si zdokonalil svoje zručnosti v programoch Microsoft Excel a Outlook, ako aj Tabuľky Google a Dokumenty. Michaelov blog je venovaný zdieľaniu svojich vedomostí a odborných znalostí s ostatnými a poskytuje jednoduché tipy a návody na zlepšenie produktivity a efektivity. Či už ste skúsený profesionál alebo začiatočník, Michaelov blog ponúka cenné poznatky a praktické rady, ako z týchto základných softvérových nástrojov vyťažiť maximum.