Tartalomjegyzék
A bemutató elmagyarázza a regresszióelemzés alapjait, és bemutat néhány különböző módszert a lineáris regresszió Excelben történő elvégzésére.
Képzelje el a következőt: kap egy csomó különböző adatot, és arra kérik, hogy jósolja meg cége jövő évi értékesítési számait. Több tucat, talán több száz olyan tényezőt fedezett fel, amelyek esetleg befolyásolhatják a számokat. De honnan tudja, hogy melyek azok, amelyek valóban fontosak? Futtasson regressziós elemzést Excelben. Ez választ ad erre és még sok más kérdésre: Mely tényezőkre?számítanak, és melyeket lehet figyelmen kívül hagyni? Mennyire függenek össze ezek a tényezők? És mennyire lehetünk biztosak a jóslatokban?
Regressziós elemzés Excelben - az alapok
A statisztikai modellezésben, regressziós elemzés két vagy több változó közötti kapcsolatok becslésére szolgál:
Függő változó (más néven kritérium változó) a fő tényező, amelyet megpróbál megérteni és megjósolni.
Független változók (más néven magyarázó változók, vagy prediktorok ) azok a tényezők, amelyek befolyásolhatják a függő változót.
A regresszióelemzés segít megérteni, hogyan változik a függő változó, ha az egyik független változó változik, és lehetővé teszi annak matematikai meghatározását, hogy a változók közül melyiknek van valóban hatása.
Technikailag a regresszióelemzés modellje az alábbiakon alapul négyzetek összege , ami egy matematikai módszer az adatpontok szórásának megtalálására. A modell célja, hogy a lehető legkisebb négyzetek összegét kapjuk, és olyan vonalat húzzunk, amely a legközelebb áll az adatokhoz.
A statisztikában megkülönböztetik az egyszerű és a többszörös lineáris regressziót. Egyszerű lineáris regresszió egy függő változó és egy független változó közötti kapcsolatot modellezi egy lineáris függvény segítségével. Ha két vagy több magyarázó változót használunk a függő változó előrejelzésére, akkor a következőkkel foglalkozunk többszörös lineáris regresszió Ha a függő változót nem lineáris függvényként modellezzük, mert az adatok közötti összefüggések nem egyenes vonalúak, használjuk a következő módszert nemlineáris regresszió Ehelyett a bemutató középpontjában egy egyszerű lineáris regresszió áll.
Példaként vegyük az esernyők eladási számait az elmúlt 24 hónapra vonatkozóan, és derítsük ki az átlagos havi csapadékmennyiséget ugyanerre az időszakra vonatkozóan. Ábrázoljuk ezeket az információkat egy diagramon, és a regressziós egyenes megmutatja a független változó (csapadékmennyiség) és a függő változó (esernyőeladások) közötti kapcsolatot:
Lineáris regressziós egyenlet
Matematikailag a lineáris regressziót ez az egyenlet határozza meg:
y = bx + a + εHol:
- x független változó.
- y függő változó.
- a a Y-interceptus , ami a várható középérték y amikor minden x változók egyenlőek 0-val. A regressziós grafikonon ez az a pont, ahol a vonal keresztezi az Y tengelyt.
- b a lejtő a regressziós egyenes, amely a változás mértéke a y mint x változások.
- ε a véletlen hiba kifejezés, amely a függő változó tényleges értéke és az előre jelzett érték közötti különbség.
A lineáris regressziós egyenlet mindig tartalmaz egy hibatermet, mivel a valós életben a prediktorok sosem tökéletesen pontosak. Néhány program, köztük az Excel is, azonban a színfalak mögött elvégzi a hibaterm kiszámítását. Így az Excelben a lineáris regressziót a következő módon végzi el legkisebb négyzetek módszer és az együtthatók keresése a és b úgy, hogy:
y = bx + aPéldánkban a lineáris regressziós egyenlet a következő alakot veszi fel:
Eladott esernyők = b * esőzés + a
Létezik egy maroknyi különböző módja annak, hogy megtalálja a és b A lineáris regresszióelemzés Excelben történő elvégzésének három fő módszere a következő:
- Az Analysis ToolPak részét képező regressziós eszköz
- Szóródási diagram trendvonallal
- Lineáris regressziós képlet
Az alábbiakban az egyes módszerek használatára vonatkozó részletes utasításokat találja.
Hogyan végezzen lineáris regressziót az Excelben az Analysis ToolPak segítségével?
Ez a példa azt mutatja be, hogyan lehet regressziót futtatni az Excelben az Analysis ToolPak kiegészítőhöz tartozó speciális eszközzel.
Az Analysis ToolPak bővítmény engedélyezése
Az Analysis ToolPak az Excel 365 és 2003 közötti összes verziójában elérhető, de alapértelmezés szerint nincs bekapcsolva. Ezért manuálisan kell bekapcsolnia. Íme, hogyan:
- Az Excelben kattintson a Fájl > Opciók .
- A Excel lehetőségek párbeszédpanelen válassza a Add-ins a bal oldalsávban, győződjön meg róla, hogy Excel bővítmények van kiválasztva a Kezelje a címet. mezőt, és kattintson a Go .
- A Add-ins párbeszédpanelen jelölje be a Elemzési eszközcsomag , és kattintson a OK :
Ez hozzáadja a Adatelemzés eszközök a Adatok fülön az Excel szalagjában.
Regressziós elemzés futtatása
Ebben a példában egy egyszerű lineáris regressziót fogunk végezni az Excelben. A B oszlopban az elmúlt 24 hónap átlagos havi csapadékmennyiségét, ami a független változó (prediktor), a C oszlopban pedig az eladott esernyők számát, ami a függő változó. Természetesen sok más tényező is befolyásolhatja az eladásokat, de most csak erre a két változóra koncentrálunk:
Ha engedélyezve van az Analysis Toolpak hozzáadása, végezze el az alábbi lépéseket a regresszióelemzés Excelben történő elvégzéséhez:
- A Adatok lapon, a Elemzés csoport, kattintson a Adatelemzés gomb.
- Válassza ki a címet. Regresszió és kattintson OK .
- A Regresszió párbeszédpanelen konfigurálja a következő beállításokat:
- Válassza ki a Y bemeneti tartomány , ami az Ön függő változó A mi esetünkben ez az esernyőértékesítés (C1:C25).
- Válassza ki a X bemeneti tartomány , azaz az Ön független változó Ebben a példában ez a havi átlagos csapadékmennyiség (B1:B25).
Ha többszörös regressziós modellt készít, válasszon ki két vagy több szomszédos oszlopot különböző független változókkal.
- Ellenőrizze a Címkék doboz ha az X és Y tartományok tetején vannak fejlécek.
- Válassza ki a kívánt Kimeneti opció, egy új munkalapot a mi esetünkben.
- Opcionálisan válassza ki a Maradékok jelölőnégyzetet, hogy megkapja az előre jelzett és a tényleges értékek közötti különbséget.
- Kattintson a címre. OK és figyelje meg az Excel által létrehozott regresszióelemzés kimenetét.
A regressziós elemzés eredményének értelmezése
Mint az imént láthatta, a regresszió futtatása Excelben egyszerű, mivel minden számítás automatikusan előre elkészül. Az eredmények értelmezése egy kicsit bonyolultabb, mivel tudnia kell, hogy mi áll az egyes számok mögött. Az alábbiakban a regresszióelemzés kimenetének 4 fő részének bontását találja.
Regressziós elemzés kimenete: Összefoglaló kimenet
Ez a rész azt mutatja meg, hogy a kiszámított lineáris regressziós egyenlet mennyire illeszkedik a forrásadatokhoz.
Az egyes információk jelentése a következő:
Többszörös R Ez a C vagyrelációs együttható A korrelációs együttható -1 és 1 közötti érték lehet, abszolút értéke pedig a kapcsolat erősségét jelzi. Minél nagyobb az abszolút érték, annál erősebb a kapcsolat:
- 1 erős pozitív kapcsolatot jelent
- -1 erős negatív kapcsolatot jelent
- 0 azt jelenti, hogy egyáltalán nincs kapcsolat
R négyzet . Ez a Meghatározási együttható , amelyet az illeszkedés jóságának mutatójaként használnak. Megmutatja, hogy hány pont esik a regressziós egyenesre. Az R2 értéket a teljes négyzetek összegéből számítják ki, pontosabban az eredeti adatok átlagtól való eltéréseinek négyzeteinek összege.
Példánkban az R2 0,91 (2 számjegyre kerekítve), ami jónak mondható. Ez azt jelenti, hogy az értékeink 91%-a illeszkedik a regresszióelemzés modelljéhez. Más szóval a függő változók (y-értékek) 91%-át magyarázzák a független változók (x-értékek). Általában a 95%-os vagy annál nagyobb R négyzet jó illeszkedésnek számít.
Korrigált R négyzet . Ez a R négyzet a modellben szereplő független változók számával kiigazítva. Ezt az értéket a következő értékek helyett kell használni R négyzet a többszörös regressziós elemzéshez.
Standard hiba Ez egy másik illeszkedési mutató, amely a regressziós elemzés pontosságát mutatja - minél kisebb a szám, annál biztosabbak lehetünk a regressziós egyenletben. Míg az R2 a függő változó varianciájának a modell által magyarázott százalékát mutatja, addig a standard hiba egy abszolút érték, amely azt mutatja, hogy az adatpontok átlagosan milyen messze esnek a regressziós egyenlettől.vonal.
Megfigyelések Ez egyszerűen a modellben szereplő megfigyelések száma.
Regressziós elemzés kimenete: ANOVA
A kimenet második része a varianciaelemzés (ANOVA):
Alapvetően a négyzetek összegét olyan egyedi összetevőkre bontja, amelyek információt adnak a regressziós modellen belüli variabilitás szintjeiről:
- df a varianciaforrásokhoz tartozó szabadsági fokok száma.
- SS Minél kisebb a maradék SS a teljes SS-hez képest, annál jobban illeszkedik a modell az adatokhoz.
- MS az átlagos négyzet.
- F az F-statisztika, vagy a nullhipotézis F-tesztje. A modell általános szignifikanciájának tesztelésére szolgál.
- Jelentőség F az F P-értéke.
Az ANOVA részt ritkán használják egy egyszerű lineáris regresszióelemzéshez az Excelben, de az utolsó komponensre mindenképpen érdemes alaposan ránézni. Jelentőség F értéke képet ad arról, hogy mennyire megbízhatóak (statisztikailag szignifikánsak) az eredményei. Ha a szignifikancia F kisebb, mint 0,05 (5%), akkor a modellje rendben van. Ha nagyobb, mint 0,05, akkor valószínűleg jobb, ha másik független változót választ.
Regressziós elemzés kimenete: együtthatók
Ez a szakasz konkrét információkat tartalmaz az elemzés összetevőiről:
A leghasznosabb összetevő ebben a szakaszban a Együtthatók Lehetővé teszi, hogy lineáris regressziós egyenletet készítsen az Excelben:
y = bx + aA mi adathalmazunk esetében, ahol y az eladott esernyők száma és x az átlagos havi csapadékmennyiség, a lineáris regressziós képletünk a következő:
Y = Csapadék együttható * x + metszéspont
Három tizedesjegyre kerekített a és b értékekkel ellátva a következővé válik:
Y=0,45*x-19,074
Például, ha a havi átlagos csapadékmennyiség 82 mm, az esernyőértékesítés körülbelül 17,8 lenne:
0.45*82-19.074=17.8
Hasonló módon megtudhatja, hogy hány esernyőt fognak eladni bármely más, Ön által megadott havi csapadékmennyiséggel (x változó).
Regressziós elemzés kimenete: maradékok
Ha összehasonlítja a 82 mm-es havi csapadékmennyiségnek megfelelő eladott esernyők becsült és tényleges számát, láthatja, hogy ezek a számok némileg eltérnek egymástól:
- Becsült: 17,8 (fentebb kiszámítva)
- Tényleges: 15 (a forrásadatok 2. sora)
Miért van különbség? Mert a független változók soha nem tökéletes előrejelzői a függő változóknak. A reziduumok pedig segíthetnek megérteni, hogy a tényleges értékek milyen messze vannak az előre jelzett értékektől:
Az első adatpont (82 mm csapadék) esetében a maradék körülbelül -2,8. Tehát ezt a számot hozzáadjuk az előre jelzett értékhez, és megkapjuk a tényleges értéket: 17,8 - 2,8 = 15.
Hogyan készítsünk lineáris regressziós grafikont az Excelben?
Ha gyorsan szemléltetni akarod a két változó közötti kapcsolatot, rajzolj egy lineáris regressziós diagramot. Ez nagyon egyszerű! Íme, hogyan!
- Jelölje ki az adatokat tartalmazó két oszlopot, beleértve a fejléceket is.
- A Beépített lapon, a Beszélgetések csoport, kattintson a Szórásdiagram ikont, és válassza ki a Scatter miniatűr (az első):
Ez egy szórásdiagramot illeszt be a munkalapra, amely ehhez fog hasonlítani:
- Most meg kell rajzolnunk a legkisebb négyzetek regressziós egyenesét. Ehhez kattintson a jobb gombbal bármelyik pontra, és válassza az Trendvonal hozzáadása... a kontextusmenüből.
- A jobb oldali ablaktáblán válassza ki a Lineáris trendvonal alakja, és opcionálisan ellenőrizheti Egyenlet megjelenítése az ábrán hogy megkapja a regressziós képletet:
Amint észreveheti, az Excel által számunkra létrehozott regressziós egyenlet megegyezik a lineáris regressziós képlettel, amelyet a Coefficients kimenet alapján építettünk fel.
- Váltson a Fill & vonal lapot, és testre szabhatja a vonalat. Például választhat egy másik vonalszínt, és szaggatott vonal helyett egyszínű vonalat használhat (válassza a Szilárd vonal lehetőséget a Dash típus doboz):
Ezen a ponton a grafikonja már úgy néz ki, mint egy tisztességes regressziós grafikon:
Mégis, érdemes lenne még néhány fejlesztést végrehajtani:
- Húzza az egyenletet oda, ahová szükségesnek látja.
- Tengelycímek hozzáadása ( Diagram elemek gomb> Axis címek ).
- Ha az adatpontok a vízszintes és/vagy függőleges tengely közepén kezdődnek, mint ebben a példában, akkor lehet, hogy meg akar szabadulni a túlzott fehér helytől. A következő tipp elmagyarázza, hogyan tegye ezt: Méretezze a diagram tengelyeit a fehér hely csökkentése érdekében.
És így néz ki a javított regressziós grafikonunk:
Fontos megjegyzés! A regressziós grafikonban a független változónak mindig az X tengelyen, a függő változónak pedig az Y tengelyen kell lennie. Ha a grafikonod fordított sorrendben van ábrázolva, cseréld fel az oszlopokat a munkalapodon, majd rajzold meg újra a grafikont. Ha nem szabad átrendezni a forrásadatokat, akkor az X és Y tengelyt közvetlenül a grafikonban cserélheted fel.
Hogyan végezzen regressziót az Excelben képletek segítségével
A Microsoft Excel rendelkezik néhány statisztikai funkcióval, amelyek segíthetnek a lineáris regresszióelemzés elvégzésében, mint például a LINEST, SLOPE, INTERCEPT és CORREL.
A LINEST függvény a legkisebb négyzetek regressziós módszerét használja a változók közötti kapcsolatot legjobban magyarázó egyenes kiszámítására, és egy, az egyenest leíró tömböt ad vissza. A függvény szintaxisának részletes magyarázatát ebben a bemutatóban találod. Egyelőre csak készítsünk egy képletet a mintaadatkészletünkhöz:
=LINEST(C2:C25, B2:B25)
Mivel a LINEST függvény egy értékekből álló tömböt ad vissza, tömbképletként kell megadni. Jelöljön ki két szomszédos cellát ugyanabban a sorban, esetünkben E2:F2, írja be a képletet, majd a Ctrl + Shift + Enter billentyűkombinációval fejezze be.
A képlet visszaadja a b együttható (E1) és a a konstans (F1) a már ismert lineáris regressziós egyenlethez:
y = bx + a
Ha nem használ tömbképleteket a munkalapokon, akkor kiszámíthatja a következő adatokat a és b egyenként szabályos képletekkel:
Szerezd meg az Y metszéspontot (a):
=INTERCEPT(C2:C25, B2:B25)
Kapjuk meg a meredekséget (b):
=SLOPE(C2:C25, B2:B25)
Ezen kívül megtalálhatja a korrelációs együttható ( Többszörös R a regresszióelemzés összefoglaló kimenetén), amely azt jelzi, hogy a két változó milyen erősen kapcsolódik egymáshoz:
=CORREL(B2:B25,C2:C25)
A következő képernyőkép az Excel regressziós képleteit mutatja be működés közben:
Tipp: Ha további statisztikákat szeretne kapni a regressziós elemzéshez, használja a LINEST függvényt az s tats paramétert TRUE értékre állítottuk, ahogy a példában látható.
Így végezhet lineáris regressziót Excelben. Mindezek mellett ne feledje, hogy a Microsoft Excel nem statisztikai program. Ha professzionális szintű regresszióelemzést kell végeznie, célzott szoftvereket érdemes használni, mint például az XLSTAT, RegressIt stb.
Ha közelebbről is meg szeretné tekinteni a lineáris regressziós képleteinket és más, ebben az oktatóanyagban tárgyalt technikákat, akkor szívesen látjuk, ha letölti az alábbi minta munkafüzetünket. Köszönjük, hogy elolvasta!
Gyakorló munkafüzet
Regressziós elemzés Excelben - példák (.xlsx fájl)