Kazalo
V tem vodniku je razložena sintaksa funkcije LINEST in prikazana njena uporaba za izvajanje linearne regresijske analize v programu Excel.
Microsoft Excel ni statistični program, vendar ima številne statistične funkcije. Ena od teh funkcij je LINEST, ki je namenjena izvajanju linearne regresijske analize in vračanju s tem povezanih statističnih podatkov. V tem učbeniku za začetnike se bomo le bežno dotaknili teorije in osnovnih izračunov. Naš glavni poudarek bo na tem, da vam zagotovimo formulo, ki preprosto deluje inzlahka prilagodite svojim podatkom.
Funkcija Excel LINEST - sintaksa in osnovne uporabe
Funkcija LINEST izračuna statistiko za premico, ki pojasnjuje razmerje med neodvisno spremenljivko in eno ali več odvisnimi spremenljivkami, ter vrne polje, ki opisuje premico. najmanjši kvadratki za iskanje najboljšega ujemanja s podatki. Enačba za premico je naslednja.
Enačba preproste linearne regresije:
y = bx + aEnačba multiple regresije:
y = b 1 x 1 + b 2 x 2 + ... + b n x n + aKje:
- y - odvisno spremenljivko, ki jo poskušate napovedati.
- x - neodvisno spremenljivko, ki jo uporabljate za napovedovanje. y .
- a - presečišče (označuje, kje črta seka os Y).
- b - naklon (označuje strmost regresijske premice, tj. stopnjo spremembe y pri spremembi x).
Funkcija LINEST v svoji osnovni obliki vrne intercept (a) in naklon (b) za regresijsko enačbo. Po želji lahko vrne tudi dodatne statistične podatke za regresijsko analizo, kot je prikazano v tem primeru.
Sintaksa funkcije LINEST
Sintaksa funkcije Excel LINEST je naslednja:
LINEST(known_y's, [known_x's], [const], [stats])Kje:
- known_y's (zahtevano) je razpon odvisnega y -Običajno je to en sam stolpec ali ena sama vrstica.
- known_x's (neobvezno) je območje neodvisnih vrednosti x. Če ga izpustite, se predpostavlja, da je to polje {1,2,3,...} enake velikosti kot known_y's .
- const (neobvezno) - logična vrednost, ki določa, kako bo intercept (konstanta) a ) je treba obravnavati:
- Če je TRUE ali izpuščen, se konstanta a se izračuna normalno.
- Če je FALSE, se konstanta a je prisiljena biti enaka 0, naklon ( b Koeficient) se izračuna za prileganje y=bx.
- statistike (neobvezno) je logična vrednost, ki določa, ali naj se izpiše dodatna statistika ali ne:
- Če je TRUE, funkcija LINEST vrne polje z dodatnimi regresijskimi statistikami.
- Če je vrednost FALSE ali je izpuščena, LINEST vrne samo konstanto preseka in koeficient(e) naklona.
Opomba: Ker LINEST vrne niz vrednosti, ga je treba vnesti kot formulo z nizom vrednosti s pritiskom bližnjice Ctrl + Shift + Enter. Če ga vnesete kot običajno formulo, se vrne samo prvi koeficient naklona.
Dodatni statistični podatki, ki jih vrne LINEST
Spletna stran statistike nastavljen na TRUE, daje funkciji LINEST navodilo, da za regresijsko analizo vrne naslednje statistične podatke:
Statistika | Opis |
Koeficient naklona | b vrednost v y = bx + a |
Konstanta intercepta | vrednost v y = bx + a |
Standardna napaka naklona | Vrednost(-e) standardne napake za koeficient(-e) b. |
Standardna napaka intercepcije | Vrednost standardne napake za konstanto a . |
Koeficient determinacije (R2) | Označuje, kako dobro regresijska enačba pojasnjuje odnos med spremenljivkami. |
Standardna napaka za oceno Y | Prikazuje natančnost regresijske analize. |
statistiko F ali vrednost F | Uporablja se za izvedbo F-testa za ničelno hipotezo, da se določi splošna ustreznost modela. |
Stopnje prostosti (df) | Število stopenj prostosti. |
Regresijska vsota kvadratov | Označuje, kolikšen del variacije odvisne spremenljivke je pojasnjen z modelom. |
Preostala vsota kvadratov | Meri količino variance odvisne spremenljivke, ki je regresijski model ne pojasni. |
Spodnji zemljevid prikazuje vrstni red, v katerem LINEST vrne niz statističnih podatkov:
V zadnjih treh vrsticah se bodo v tretjem in naslednjih stolpcih, ki niso izpolnjeni s podatki, pojavile napake #N/A. To je privzeto vedenje funkcije LINEST, če pa želite skriti zapise napak, formulo LINEST zavijte v IFERROR, kot je prikazano v tem primeru.
Kako uporabiti LINEST v Excelu - primeri formul
Uporaba funkcije LINEST je lahko zapletena, zlasti za začetnike, saj morate formulo ne le pravilno sestaviti, temveč tudi pravilno interpretirati njen rezultat. V nadaljevanju boste našli nekaj primerov uporabe formul LINEST v Excelu, ki vam bodo, upajmo, pomagali usvojiti teoretično znanje :)
Enostavna linearna regresija: izračunajte naklon in presečišče
Za določitev presečišča in naklona regresijske premice uporabite funkcijo LINEST v njeni najpreprostejši obliki: podajte razpon odvisnih vrednosti za known_y's in razpon neodvisnih vrednosti za known_x's Zadnja dva argumenta lahko nastavite na TRUE ali ju izpustite.
Na primer z y vrednosti (prodajne številke) v C2:C13 in vrednosti x (stroški oglaševanja) v B2:B13, je naša linearna regresijska formula preprosta:
=LINEST(C2:C13,B2:B13)
Če jo želite pravilno vnesti v delovni list, izberite dve sosednji celici v isti vrstici, v tem primeru E2:F2, vnesite formulo in pritisnite kombinacijo tipk Ctrl + Shift + Enter, da jo dokončate.
Formula bo v prvo celico (E2) vrnila koeficient naklona, v drugo celico (F2) pa konstanto intercepcije:
Spletna stran naklon je približno 0,52 (zaokroženo na dve decimalni mesti). x poveča za 1, y poveča za 0,52.
Spletna stran Y-intercepcija je negativna -4,99. To je pričakovana vrednost y če je x=0. Če jo narišemo na graf, je to vrednost, pri kateri regresijska premica preseka os y.
Zgornje vrednosti vstavite v preprosto enačbo linearne regresije in dobili boste naslednjo formulo za napovedovanje števila prodaje na podlagi stroškov oglaševanja:
y = 0,52*x - 4,99
Če na primer za oglaševanje porabite 50 dolarjev, pričakujete, da boste prodali 21 dežnikov:
0.52*50 - 4.99 = 21.01
Vrednosti naklona in preseka lahko dobite tudi ločeno z uporabo ustrezne funkcije ali z vgnezditvijo formule LINEST v INDEX:
Nagib
=SLOPE(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),1)
Prevzem
=INTERCEPT(C2:C13,B2:B13)
=INDEX(LINEST(C2:C13,B2:B13),2)
Kot je prikazano na spodnji sliki zaslona, so rezultati vseh treh formul enaki:
Večkratna linearna regresija: naklon in prekinitev
Če imate dve ali več neodvisnih spremenljivk, jih vnesite v sosednje stolpce in celoten razpon podajte programu known_x's argument.
Na primer, pri prodajnih številkah ( y v D2:D13, stroški oglaševanja (en niz vrednosti x) v B2:B13 in povprečna mesečna količina padavin (drug niz vrednosti x) v B2:B13. x vrednosti) v C2:C13, uporabite to formulo:
=LINEST(D2:D13,B2:C13)
Ker bo formula vrnila niz treh vrednosti (2 koeficienta naklona in konstanto intercepcije), izberemo tri sosednje celice v isti vrstici, vnesemo formulo in pritisnemo bližnjico Ctrl + Shift + Enter.
Upoštevajte, da formula za večkratno regresijo vrne koeficienti naklona v obratni vrstni red neodvisnih spremenljivk (od desne proti levi), tj. b n , b n-1 , ..., b 2 , b 1 :
Da bi napovedali število prodanih kosov, v enačbo multiple regresije vnesemo vrednosti, ki jih vrne formula LINEST:
y = 0,3*x 2 + 0.19*x 1 - 10.74
Če na primer za oglaševanje porabite 50 USD in povprečno mesečno pade 100 mm padavin, pričakujete, da boste prodali približno 23 dežnikov:
0.3*50 + 0.19*100 - 10.74 = 23.26
Enostavna linearna regresija: napoved odvisne spremenljivke
Poleg izračuna a in . b vrednosti za regresijsko enačbo, lahko funkcija Excel LINEST oceni tudi odvisno spremenljivko (y) na podlagi znane neodvisne spremenljivke (x). Za to uporabite LINEST v kombinaciji s funkcijo SUM ali SUMPRODUCT.
Na primer, na podlagi prodaje v prejšnjih mesecih in oktobrskega proračuna za oglaševanje v višini 50 USD lahko izračunate število prodanih dežnikov v naslednjem mesecu, na primer v oktobru:
=SUM(LINEST(C2:C10, B2:B10)*{50,1})
Namesto trdega kodiranja x vrednost v formuli, jo lahko navedete kot referenco na celico. V tem primeru morate v neko celico vnesti tudi konstanto 1, saj v konstanti polja ne morete mešati referenc in vrednosti.
Z x vrednost v E2 in konstanto 1 v F2, bo uporabljena katera koli od spodnjih formul:
Običajna formula (vnese se s pritiskom tipke Enter ):
=SUMPRODUKT(LINEST(C2:C10, B2:B10)*(E2:F2))
Formula polja (vnesena s pritiskom tipk Ctrl + Shift + Enter ):
=SUM(LINEST(C2:C10, B2:B10)*(E2:F2))
Rezultat lahko preverite tako, da za iste podatke določite presečišče in naklon ter nato s pomočjo formule za linearno regresijo izračunate y :
=E2*G2+F2
Pri čemer je E2 naklon, G2 je x vrednost, F2 pa je vmesna vrednost:
Večkratna regresija: napoved odvisne spremenljivke
Če imate opravka z več napovedovalci, tj. z več različnimi sklopi x vrednosti, vključite vse te napovednike v matriko konstant. Na primer, pri proračunu za oglaševanje v višini 50 USD (x 2 ) in povprečno mesečno količino padavin 100 mm (x 1 ), je formula naslednja:
=SUM(LINEST(D2:D10, B2:C10)*{50,100,1})
Pri čemer so D2:D10 znani y vrednosti in B2:C10 sta dva niza x vrednosti:
Bodite pozorni na vrstni red x Kot je bilo že poudarjeno, ko se funkcija LINEST v Excelu uporablja za večkratno regresijo, vrne koeficiente naklona od desne proti levi. V našem primeru so koeficienti naklona od desne proti levi. Oglaševanje se najprej vrne koeficient, nato pa se vrne koeficient Padavine Za pravilen izračun napovedanega števila prodaje morate koeficiente pomnožiti z ustreznim x vrednosti, zato postavite elemente konstante matrike v tem vrstnem redu: {50,100,1}. Zadnji element je 1, ker je zadnja vrednost, ki jo vrne LINEST, prestrezanje, ki se ne sme spremeniti, zato jo preprosto pomnožite z 1.
Namesto da bi uporabili konstanto matrike, lahko vse spremenljivke x vnesete v nekatere celice in se na te celice sklicujete v formuli, kot smo to storili v prejšnjem primeru.
Običajna formula:
=SUMPRODUKT(LINEST(D2:D10, B2:C10)*(F2:H2))
Formula polja:
=SUM(LINEST(D2:D10, B2:C10)*(F2:H2))
Pri čemer sta F2 in G2 x in H2 je 1:
Formula LINEST: dodatna regresijska statistika
Če želite pri regresijski analizi pridobiti več statističnih podatkov, v zadnji argument funkcije LINEST vpišite TRUE. Če formulo uporabimo za naše vzorčne podatke, dobimo naslednjo obliko:
=LINEST(D2:D13, B2:C13, TRUE, TRUE)
Ker imamo v stolpcih B in C dve neodvisni spremenljivki, izberemo rage, sestavljen iz treh vrstic (dve vrednosti x + intercept) in petih stolpcev, vnesemo zgornjo formulo, pritisnemo Ctrl + Shift + Enter , in dobimo ta rezultat:
Če se želite znebiti napak #N/A, lahko LINEST vstavite v IFERROR na naslednji način:
=IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")
Na spodnji sliki zaslona je prikazan rezultat in pojasnjeno, kaj pomenijo posamezne številke:
V prejšnjih primerih smo razložili koeficiente naklona in intercepta Y, zato si na hitro oglejmo še druge statistične podatke.
Koeficient determinacije (R2). vrednost R2 je rezultat deljenja vsote kvadratov regresije s skupno vsoto kvadratov. pove vam, koliko y so pojasnjene z x V tem primeru je R2 približno 0,97, kar pomeni, da neodvisne spremenljivke (oglaševanje + povprečne mesečne padavine) pojasnijo 97 % naših odvisnih spremenljivk (prodaja dežnikov), kar je odlično prileganje!
Standardne napake Na splošno te vrednosti kažejo natančnost regresijske analize. Manjše kot so številke, bolj ste lahko prepričani o svojem regresijskem modelu.
Statistika F Za potrditev ali zavrnitev ničelne hipoteze uporabite statistiko F. Priporočljivo je, da statistiko F uporabite v kombinaciji z vrednostjo P, ko se odločate, ali so skupni rezultati pomembni.
Stopnje svobode (df). Funkcija LINEST v Excelu vrne preostale stopnje prostosti , ki je skupni df minus regresijski df Stopnje prostosti lahko uporabite za pridobitev kritičnih vrednosti F v statistični tabeli, nato pa kritične vrednosti F primerjate s statistiko F, da določite stopnjo zaupanja za svoj model.
Regresijska vsota kvadratov (znan tudi kot pojasnjena vsota kvadratov ali modelska vsota kvadratov ) Je vsota kvadratnih razlik med napovedanimi vrednostmi y in povprečjem y, izračunana po tej formuli: =∑(ŷ - ȳ)2. Kaže, kolikšen del variacije odvisne spremenljivke pojasnjuje vaš regresijski model.
Preostala vsota kvadratov To je vsota kvadratnih razlik med dejanskimi vrednostmi y in napovedanimi vrednostmi y. Kaže, koliko variacije odvisne spremenljivke vaš model ne pojasni. Manjša kot je preostala vsota kvadratov v primerjavi s skupno vsoto kvadratov, bolje se vaš regresijski model ujema s podatki.
5 stvari, ki jih morate vedeti o funkciji LINEST
Za učinkovito uporabo formul LINEST v delovnih listih boste morda želeli izvedeti nekaj več o "notranji mehaniki" funkcije:
- Known_y's in . known_x's V preprostem linearnem regresijskem modelu s samo enim nizom spremenljivk x, known_y's in . known_x's so lahko poljubne oblike, če imajo enako število vrstic in stolpcev. Če izvajate večkratno regresijsko analizo z več kot enim nizom neodvisnih x spremenljivke, known_y's mora biti vektor, tj. območje ene vrstice ali enega stolpca.
- Prisiljevanje konstante na nič . Ko je const je TRUE ali je izpuščen, se a konstanta (intercept) se izračuna in vključi v enačbo: y=bx + a. const je nastavljena na FALSE, se šteje, da je intercepcija enaka 0 in se izpusti iz regresijske enačbe: y=bx.
V statistiki se že desetletja razpravlja o tem, ali je smiselno prisiliti konstanto intercepta na 0 ali ne. Mnogi verodostojni strokovnjaki za regresijsko analizo menijo, da če se določitev intercepta na nič (const=FALSE) zdi koristna, potem je linearna regresija sama po sebi napačen model za niz podatkov. Drugi menijo, da je mogoče konstanto v določenih primerih prisiliti na nič, na primer,Na splošno je v večini primerov priporočljivo izbrati privzeto vrednost const=TRUE ali jo izpustiti.
- Natančnost Natančnost regresijske enačbe, izračunane s funkcijo LINEST, je odvisna od razpršenosti vaših podatkovnih točk. Bolj ko so podatki linearni, bolj natančni so rezultati formule LINEST.
- Odvečne vrednosti x V nekaterih primerih lahko eden ali več neodvisnih x spremenljivke morda nimajo nobene dodatne napovedne vrednosti in odstranitev takih spremenljivk iz regresijskega modela ne vpliva na natančnost napovedanih vrednosti y. Ta pojav je znan kot "kolinearnost". Excelova funkcija LINEST preveri kolinearnost in izpusti vse odvečne spremenljivke, ki so v regresijskem modelu. x spremenljivke, ki jih identificira iz modela. Izpuščene spremenljivke x spremenljivke je mogoče prepoznati po 0 koeficientih in 0 vrednostih standardne napake.
- LINEST proti SLOPE in INTERCEPT Osnovni algoritem funkcije LINEST se razlikuje od algoritma, ki se uporablja v funkcijah SLOPE in INTERCEPT. Zato lahko te funkcije pri nedoločenih ali kolinearnih izvornih podatkih vrnejo različne rezultate.
Excelova funkcija LINEST ne deluje
Če vaša formula LINEST vrže napako ali da napačen rezultat, je to verjetno posledica enega od naslednjih razlogov:
- Če funkcija LINEST vrne samo eno število (koeficient nagiba), ste jo najverjetneje vnesli kot navadno formulo in ne kot formulo v polju. Za pravilno dokončanje formule pritisnite Ctrl + Shift + Enter. Ko to storite, se formula zapre v {vijugaste oklepaje}, ki so vidni v vrstici formul.
- #REF! napaka. Pojavi se, če known_x's in . known_y's imajo različne dimenzije.
- #VALUE! napaka. Nastane, če known_x's ali known_y's vsebuje vsaj eno prazno celico, besedilno vrednost ali besedilno predstavitev števila, ki ga Excel ne prepozna kot številčno vrednost. Napaka #VALUE se pojavi tudi, če je const ali statistike argumenta ni mogoče ovrednotiti kot TRUE ali FALSE.
Tako lahko v Excelu uporabite LINEST za preprosto in večkratno linearno regresijsko analizo. Če si želite podrobneje ogledati formule, obravnavane v tem učbeniku, si lahko spodaj prenesete naš vzorčni delovni zvezek. Zahvaljujem se vam za branje in upam, da se naslednji teden vidimo na našem blogu!
Praktični delovni zvezek za prenos
Primeri funkcij Excel LINEST (.xlsx datoteka)