Tartalomjegyzék
Ez a bemutató elmagyarázza a LINEST függvény szintaxisát, és megmutatja, hogyan lehet vele lineáris regresszióelemzést végezni az Excelben.
A Microsoft Excel nem egy statisztikai program, azonban számos statisztikai funkcióval rendelkezik. Az egyik ilyen funkció a LINEST, amely lineáris regresszióelemzés elvégzésére és a kapcsolódó statisztikák visszaadására szolgál. Ebben a kezdőknek szóló bemutatóban csak könnyedén érintjük az elméletet és a mögöttes számításokat. A fő hangsúlyt arra helyezzük, hogy egy egyszerűen működő képletet adjunk Önnek, és hogykönnyen testreszabható az Ön adataihoz.
Excel LINEST függvény - szintaxis és alapvető felhasználások
A LINEST függvény kiszámítja a független változó és egy vagy több függő változó közötti kapcsolatot magyarázó egyenes statisztikáját, és visszaad egy, az egyenest leíró tömböt. A függvény a legkisebb négyzetek módszerrel a legjobb illeszkedést találjuk meg az adatainkhoz. Az egyenes egyenlete a következő.
Egyszerű lineáris regressziós egyenlet:
y = bx + aTöbbszörös regressziós egyenlet:
y = b 1 x 1 + b 2 x 2 + ... + b n x n + aHol:
- y - a függő változó, amelyet megpróbál megjósolni.
- x - a független változó, amelyet az előrejelzéshez használ y .
- a - a metszéspont (jelzi, hogy a vonal hol metszi az Y tengelyt).
- b - a meredekség (a regressziós egyenes meredekségét jelzi, azaz az y változásának mértékét az x változásával).
Alapvető formájában a LINEST függvény visszaadja a regressziós egyenlet metszéspontját (a) és meredekségét (b). Opcionálisan további statisztikákat is visszaadhat a regressziós elemzéshez, ahogyan az ebben a példában látható.
LINEST függvény szintaxis
Az Excel LINEST függvény szintaxisa a következő:
LINEST(ismert_y-k, [ismert_x-k], [const], [stats])Hol:
- known_y's (szükséges) a függő y -értékek a regressziós egyenletben. Általában ez egyetlen oszlop vagy egyetlen sor.
- known_x's (opcionális) a független x-értékek tartománya. Ha kihagyjuk, akkor azt feltételezzük, hogy ez a {1,2,3,...} tömb, amelynek mérete megegyezik a következővel known_y's .
- const (opcionális) - egy logikai érték, amely meghatározza, hogy a metszéspont (állandó a ) kell kezelni:
- Ha TRUE vagy elhagyja, a konstans a normális módon kerül kiszámításra.
- Ha FALSE, a konstans a 0-ra kényszerül, és a meredekség ( b együttható) kiszámítása az y=bx illesztéséhez.
- statisztikák (opcionális) egy logikai érték, amely meghatározza, hogy további statisztikákat adjon-e ki vagy sem:
- Ha TRUE, a LINEST függvény egy további regressziós statisztikákat tartalmazó tömböt ad vissza.
- Ha FALSE vagy elhagyja, a LINEST csak a metszetállandó és a meredekség együttható(ka)t adja vissza.
Megjegyzés: Mivel a LINEST értékek tömbjét adja vissza, tömbképletként kell megadni a Ctrl + Shift + Enter billentyűkombinációval. Ha normál képletként adjuk meg, csak az első meredekségi együtthatót adja vissza.
A LINEST által visszaküldött további statisztikák
A statisztikák argumentum TRUE értékre állítva utasítja a LINEST függvényt, hogy a következő statisztikákat adja vissza a regressziós elemzéshez:
Statisztika | Leírás |
Meredekségi együttható | b értéke y = bx + a-ban |
Intercept konstans | az y = bx + a-ban szereplő érték |
A meredekség standard hibája | A b együttható(k) standard hibaértéke(i). |
A metszéspont standard hibája | A konstans standard hibaértéke a . |
Meghatározási együttható (R2) | Jelzi, hogy a regressziós egyenlet mennyire jól magyarázza a változók közötti kapcsolatot. |
Az Y becslés standard hibája | A regressziós elemzés pontosságát mutatja. |
F-statisztika, vagy az F-megfigyelt érték | A nullhipotézisre vonatkozó F-teszt elvégzésére szolgál a modell általános illeszkedési jóságának meghatározására. |
Szabadságfok (df) | A szabadságfokok száma. |
Regressziós négyzetek összege | Azt jelzi, hogy a függő változó változásának mekkora részét magyarázza a modell. |
Négyzetek maradék összege | A függő változó azon varianciájának mértékét méri, amelyet a regressziós modell nem magyaráz meg. |
Az alábbi térkép mutatja, hogy a LINEST milyen sorrendben adja vissza a statisztikák tömbjét:
Az utolsó három sorban a #N/A hibák a harmadik és az azt követő, adatokkal nem töltött oszlopokban fognak megjelenni. Ez a LINEST függvény alapértelmezett viselkedése, de ha el szeretné rejteni a hibajelzéseket, akkor a LINEST képletet csomagolja be IFERROR-ba, ahogyan az ebben a példában látható.
A LINEST használata Excelben - képletpéldák
A LINEST függvény használata trükkös lehet, különösen a kezdők számára, mert nem csak a képletet kell helyesen felépíteni, hanem a kimenetét is megfelelően értelmezni. Az alábbiakban néhány példát találsz a LINEST képletek használatára az Excelben, amelyek remélhetőleg segítenek az elméleti tudás elsajátításában :)
Egyszerű lineáris regresszió: a meredekség és a metszéspont kiszámítása
A regressziós egyenes metszéspontjának és meredekségének kiszámításához a LINEST függvényt használjuk a legegyszerűbb formában: megadjuk a függő értékek tartományát a regressziós egyeneshez. known_y's argumentum és a független értékek tartománya a known_x's Az utolsó két argumentum TRUE-ra állítható vagy elhagyható.
Például a y értékek (eladási számok) a C2:C13 és x értékek (reklámköltségek) a B2:B13, a lineáris regressziós képletünk a következő egyszerű:
=LINEST(C2:C13,B2:B13)
A helyes bevitelhez a munkalapon jelölje ki az azonos sor két szomszédos celláját, ebben a példában E2:F2, írja be a képletet, majd a Ctrl + Shift + Enter billentyűkombinációval fejezze be.
A képlet az első cellában (E2) a meredekségi együtthatót, a második cellában (F2) pedig a metszéspont állandót adja vissza:
A lejtő megközelítőleg 0,52 (két tizedesjegyre kerekítve). Ez azt jelenti, hogy amikor x 1-gyel nő, y 0,52-vel nő.
A Y-interceptus negatív -4,99. Ez a várható érték a y ha x=0. Ha grafikonon ábrázoljuk, ez az az érték, amelynél a regressziós egyenes keresztezi az y-tengelyt.
Adja meg a fenti értékeket egy egyszerű lineáris regressziós egyenlethez, és a következő képletet kapja a reklámköltségen alapuló értékesítési szám előrejelzésére:
y = 0,52*x - 4,99
Ha például 50 dollárt költ reklámra, akkor 21 esernyőt kell eladnia:
0.52*50 - 4.99 = 21.01
A meredekség és a metszéspont értékei külön-külön is megkaphatók a megfelelő függvény használatával vagy a LINEST képlet INDEX-be történő beágyazásával:
Lejtő
=SLOPE(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),1)
Intercept
=INTERCEPT(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),2)
Amint az alábbi képernyőképen látható, mindhárom képlet ugyanazokat az eredményeket adja:
Többszörös lineáris regresszió: meredekség és metszéspont
Abban az esetben, ha két vagy több független változója van, mindenképpen adja be őket egymás melletti oszlopokba, és adja meg az egész tartományt a known_x's érv.
Például az értékesítési számokkal ( y értékek) a D2:D13, a reklámköltség (az x értékek egy csoportja) a B2:B13 és az átlagos havi csapadékmennyiség (egy másik csoportja x értékek) a C2:C13-ban, ezt a képletet használja:
=LINEST(D2:D13,B2:C13)
Mivel a képlet egy 3 értékből álló tömböt fog visszaadni (2 meredekségi együttható és a metszésállandó), kijelölünk három egybefüggő cellát ugyanabban a sorban, beírjuk a képletet, és megnyomjuk a Ctrl + Shift + Enter billentyűkombinációt.
Felhívjuk a figyelmet arra, hogy a többszörös regressziós képlet a meredekségi együtthatók a fordított sorrend a független változók (jobbról balra), azaz b n , b n-1 , ..., b 2 , b 1 :
Az eladási szám előrejelzéséhez a LINEST képlet által visszaadott értékeket adjuk meg a többszörös regressziós egyenlethez:
y = 0,3*x 2 + 0.19*x 1 - 10.74
Például 50 dollár reklámra költött összeggel és 100 mm átlagos havi csapadékmennyiséggel számolva körülbelül 23 esernyő eladása várható:
0.3*50 + 0.19*100 - 10.74 = 23.26
Egyszerű lineáris regresszió: függő változó előrejelzése
A számításon kívül a a és b értékeket a regressziós egyenlethez, az Excel LINEST függő változót (y) az ismert független változó (x) alapján is meg tudja becsülni. Ehhez a LINEST függő változót a SUM vagy SUMPRODUCT függvénnyel együtt használja.
Például így számolhatja ki a következő hónap, mondjuk október esernyőeladásainak számát az előző hónapok eladásai és az októberi 50 dolláros reklámköltségvetés alapján:
=SUM(LINEST(C2:C10, B2:B10)*{50,1})
Ahelyett, hogy keményen kódolnánk a x értéket a képletben, megadhatja cellahivatkozásként. Ebben az esetben az 1 állandót is be kell írnia valamelyik cellába, mert egy tömbállandóban nem keverheti a hivatkozásokat és az értékeket.
A x értéket az E2-ben és az 1 konstansot az F2-ben, az alábbi képletek bármelyike jól fog működni:
Szabályos képlet (Enter megnyomásával adható meg):
=SUMPRODUCT(LINEST(C2:C10, B2:B10)*(E2:F2))
Tömbképlet (a Ctrl + Shift + Enter billentyűkombinációval adható meg):
=SUM(LINEST(C2:C10, B2:B10)*(E2:F2))
Az eredmény ellenőrzéséhez megkaphatja a metszéspontot és a meredekséget ugyanazokra az adatokra, majd a lineáris regressziós képlet segítségével kiszámíthatja a következőket y :
=E2*G2+F2
Ahol E2 a meredekség, G2 a x érték, F2 pedig a metszéspont:
Többszörös regresszió: függő változó előrejelzése
Abban az esetben, ha több prediktorral van dolgunk, azaz néhány különböző x értékeket, vegyük fel az összes ilyen prediktort a tömbi konstansba. Például az 50 dolláros reklámköltségvetéssel (x 2 ) és 100 mm átlagos havi csapadékmennyiség (x 1 ), a képlet a következő:
=SUM(LINEST(D2:D10, B2:C10)*{50,100,1})
Ahol D2:D10 az ismert y értékek és a B2:C10 két csoportja a x értékek:
Kérjük, figyeljen a sorrendre x értékek a tömbben konstans. Amint arra már korábban rámutattunk, amikor az Excel LINEST függvényét többszörös regresszió elvégzésére használjuk, a lejtési együtthatókat jobbról balra haladva adja vissza. A példánkban a(z) Reklám együtthatót kapjuk vissza először, majd a Esőmennyiség Az előre jelzett értékesítési szám helyes kiszámításához az együtthatókat meg kell szorozni a megfelelő x értékeket, ezért a tömbállandó elemeit ebben a sorrendben helyezzük el: {50,100,1}. Az utolsó elem az 1, mert a LINEST által visszaadott utolsó érték az az intercept, amelyet nem szabad megváltoztatni, ezért egyszerűen megszorozzuk 1-gyel.
Ahelyett, hogy tömbi állandót használna, az összes x változót beírhatja néhány cellába, és hivatkozhat ezekre a cellákra a képletben, ahogyan azt az előző példában tettük.
Normál formula:
=SUMPRODUCT(LINEST(D2:D10, B2:C10)*(F2:H2))
Array formula:
=SUM(LINEST(D2:D10, B2:C10)*(F2:H2))
Ahol F2 és G2 a x értékek és H2 1:
LINEST formula: további regressziós statisztikák
Mint emlékezhetsz rá, ha több statisztikát szeretnél kapni a regresszióelemzéshez, a LINEST függvény utolsó argumentumába TRUE-t írsz. A mintadatainkra alkalmazva a képlet a következő alakot veszi fel:
=LINEST(D2:D13, B2:C13, TRUE, TRUE)
Mivel a B és C oszlopokban 2 független változó van, kiválasztunk egy 3 sorból (két x érték + intercept) és 5 oszlopból álló ragyát, beírjuk a fenti képletet, megnyomjuk a Ctrl + Shift + Enter billentyűkombinációt, és ezt az eredményt kapjuk:
A #N/A hibák kiküszöböléséhez a LINEST-et az IFERROR-ba fészkelheted be a következőképpen:
=IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")
Az alábbi képernyőkép mutatja az eredményt, és elmagyarázza, hogy az egyes számok mit jelentenek:
A meredekségi együtthatókat és az Y-interceptust az előző példákban már elmagyaráztuk, ezért nézzük meg gyorsan a többi statisztikát.
Meghatározási együttható (R2). Az R2 értéke a regresszió négyzetösszegének a teljes négyzetösszeggel való osztásából adódik. Megmutatja, hogy hány y értékeket a következőkkel magyarázzák x Az R2 értéke ebben a példában körülbelül 0,97, ami azt jelenti, hogy a függő változók (esernyőeladások) 97%-át magyarázzák a független változók (reklám + átlagos havi csapadékmennyiség), ami kiváló illeszkedést jelent!
Standard hibák Általában ezek az értékek a regresszióelemzés pontosságát mutatják. Minél kisebbek a számok, annál biztosabbak lehetünk a regressziós modellben.
F-statisztika Az F-statisztikát a nullhipotézis alátámasztására vagy elutasítására használja. Az F-statisztikát a P-értékkel együtt ajánlott használni annak eldöntéséhez, hogy az összesített eredmények szignifikánsak-e. A P-értéket a P-értékkel együtt kell használni.
Szabadságfokok (df). Az Excelben a LINEST függvény visszaadja a maradék szabadsági fokok , ami a teljes df mínusz a regressziós df A szabadságfokok segítségével egy statisztikai táblázatban megkaphatja az F-kritikus értékeket, majd az F-kritikus értékeket összehasonlíthatja az F-statisztikával, hogy meghatározza a modelljéhez tartozó megbízhatósági szintet.
Regressziós négyzetek összege (más néven a magyarázott négyzetek összege , vagy modell négyzetek összege ). Ez az előre jelzett y-értékek és az y átlaga közötti négyzetes különbségek összege, amelyet a következő képlettel számolunk ki: =∑(ŷ - ȳ)2. Megmutatja, hogy a regressziós modell a függő változó variációjának mekkora részét magyarázza.
Négyzetek maradék összege Ez a tényleges y-értékek és a jósolt y-értékek közötti négyzetes különbségek összege. Megmutatja, hogy a függő változóban lévő variáció mekkora részét nem magyarázza a modell. Minél kisebb a maradék négyzetek összege a teljes négyzetek összegéhez képest, annál jobban illeszkedik a regressziós modell az adatokhoz.
5 dolog, amit a LINEST funkcióról tudni kell
Ahhoz, hogy hatékonyan használhassa a LINEST képleteket a munkalapjain, érdemes egy kicsit többet tudnia a függvény "belső mechanizmusáról":
- Known_y's és known_x's Egy egyszerű lineáris regressziós modellben, ahol csak egy x változó van, known_y's és known_x's bármilyen alakú tartományok lehetnek, amennyiben a sorok és oszlopok száma megegyezik. Ha többszörös regresszióelemzést végez egynél több független x változók, known_y's vektornak kell lennie, azaz egy sor vagy egy oszlop tartományának.
- A konstans nullára kényszerítése . Amikor a const argumentum TRUE vagy elhagyva, a a konstans (metszéspont) kiszámításra kerül és bekerül az egyenletbe: y=bx + a. Ha const FALSE-re van állítva, a metszéspontot 0-nak tekintjük, és kihagyjuk a regressziós egyenletből: y=bx.
A statisztikában évtizedek óta vita tárgya, hogy van-e értelme az intercept konstans 0-ra kényszerítésének vagy sem. Sok hiteles regresszióelemzéssel foglalkozó szakember úgy véli, hogy ha az intercept nullára állítása (const=FALSE) hasznosnak tűnik, akkor maga a lineáris regresszió rossz modell az adathalmazhoz. Mások azt feltételezik, hogy a konstans bizonyos helyzetekben, pl. a konstans nullára kényszeríthető,Általában ajánlott az alapértelmezett const=TRUE értéket választani, vagy a legtöbb esetben elhagyni.
- Pontosság A LINEST függvény által számított regressziós egyenlet pontossága az adatpontok szórásától függ. Minél lineárisabbak az adatok, annál pontosabbak a LINEST képlet eredményei.
- Redundáns x értékek Bizonyos helyzetekben egy vagy több független x változóknak esetleg nincs további előrejelző értékük, és az ilyen változók eltávolítása a regressziós modellből nem befolyásolja az előre jelzett y értékek pontosságát. Ezt a jelenséget "kollinearitásnak" nevezik. Az Excel LINEST funkciója ellenőrzi a kollinearitást, és elhagyja a felesleges x változókat, amelyeket a modellből azonosít. A kihagyott x a változók 0 együttható és 0 standard hibaérték alapján ismerhetők fel.
- LINEST vs. SLOPE és INTERCEPT A LINEST függvény algoritmusa különbözik a SLOPE és INTERCEPT függvényekben használt algoritmustól, ezért ha a forrásadatok meghatározatlanok vagy kollineárisak, ezek a függvények eltérő eredményeket adhatnak.
Az Excel LINEST funkció nem működik
Ha a LINEST-képlet hibát dob, vagy rossz kimenetet eredményez, annak nagy valószínűséggel az alábbi okok valamelyike az oka:
- Ha a LINEST függvény csak egy számot (lejtési együtthatót) ad vissza, akkor valószínűleg normál képletként adta meg, nem pedig tömbképletként. Ügyeljen arra, hogy a képlet helyes befejezéséhez nyomja le a Ctrl + Shift + Enter billentyűkombinációt. Ha ezt megteszi, a képletet a képletsoron látható {szöges zárójelek} közé zárja.
- #REF! hiba. Akkor fordul elő, ha a known_x's és known_y's tartományok különböző méretekkel rendelkeznek.
- #VALUE! hiba. Akkor következik be, ha known_x's vagy known_y's legalább egy üres cellát, szöveges értéket vagy olyan szám szöveges megjelenítését tartalmazza, amelyet az Excel nem ismer el numerikus értékként. A #VALUE hiba akkor is előfordul, ha az Excel nem ismeri el numerikus értékként. const vagy statisztika argumentumot nem lehet TRUE vagy FALSE értékre értékelni.
Így használja a LINEST-et az Excelben egyszerű és többszörös lineáris regressziós elemzéshez. Ha közelebbről meg szeretné nézni a bemutatóban tárgyalt képleteket, szívesen letölti az alábbi minta munkafüzetünket. Köszönöm, hogy elolvasta, és remélem, jövő héten találkozunk a blogunkon!
Gyakorlati munkafüzet letölthető
Excel LINEST funkció példák (.xlsx fájl)