Excel LINEST function na may mga halimbawa ng formula

  • Ibahagi Ito
Michael Brown

Ipinapaliwanag ng tutorial na ito ang syntax ng LINEST function at ipinapakita kung paano ito gamitin para magsagawa ng linear regression analysis sa Excel.

Ang Microsoft Excel ay hindi isang statistical program, gayunpaman, ginagawa nito ay may bilang ng mga istatistikal na pag-andar. Ang isa sa mga naturang function ay ang LINEST, na idinisenyo upang magsagawa ng linear regression analysis at ibalik ang mga nauugnay na istatistika. Sa tutorial na ito para sa mga baguhan, basta-basta lang ang gagawin namin sa teorya at pinagbabatayan na mga kalkulasyon. Ang aming pangunahing pokus ay ang pagbibigay sa iyo ng isang formula na simpleng gumagana at madaling ma-customize para sa iyong data.

    Excel LINEST function - syntax at mga pangunahing gamit

    Ang Kinakalkula ng function ng LINEST ang mga istatistika para sa isang tuwid na linya na nagpapaliwanag ng kaugnayan sa pagitan ng independent variable at isa o higit pang mga dependent variable, at nagbabalik ng array na naglalarawan sa linya. Ang function ay gumagamit ng least squares na paraan upang mahanap ang pinakaangkop para sa iyong data. Ang equation para sa linya ay ang mga sumusunod.

    Simple linear regression equation:

    y = bx + a

    Multiple regression equation:

    y = b 1x 1+ b 2x 2+ … + b nx n+ a

    Saan:

    • y - ang dependent variable na sinusubukan mong hulaan.
    • x - ang independent variable na iyong ginagamit para hulaan y .
    • a - ang intercept (nagsasaad kung saan nagsa-intersect ang linya sa Y axis).
    • b - ang slopemakabuluhan.

      Mga antas ng kalayaan (df). Ang LINEST function sa Excel ay nagbabalik ng mga natitirang antas ng kalayaan , na kung saan ay ang kabuuang df binawasan ang regression df . Maaari mong gamitin ang mga antas ng kalayaan upang makakuha ng mga F-kritikal na halaga sa isang istatistikal na talahanayan, at pagkatapos ay ikumpara ang mga F-kritikal na halaga sa F statistic upang matukoy ang antas ng kumpiyansa para sa iyong modelo.

      Regression sum ng mga parisukat (aka ang ipinaliwanag na kabuuan ng mga parisukat , o modelo na kabuuan ng mga parisukat ). Ito ay ang kabuuan ng mga squared na pagkakaiba sa pagitan ng hinulaang y-values ​​at ang mean ng y, na kinakalkula gamit ang formula na ito: =∑(ŷ - ȳ)2. Isinasaad nito kung gaano karami ang variation sa dependent variable na ipinapaliwanag ng iyong regression model.

      Residual sum of squares . Ito ay ang kabuuan ng mga squared na pagkakaiba sa pagitan ng aktwal na y-values ​​at ang hinulaang y-values. Isinasaad nito kung gaano karami ang variation sa dependent variable na hindi ipinapaliwanag ng iyong modelo. Kung mas maliit ang natitirang kabuuan ng mga parisukat kumpara sa kabuuang kabuuan ng mga parisukat, mas mahusay ang iyong modelo ng regression na umaangkop sa iyong data.

      5 bagay na dapat mong malaman tungkol sa LINEST function

      Upang mahusay na magamit ang mga formula ng LINEST sa iyong mga worksheet, maaaring gusto mong malaman ang higit pa tungkol sa "inner mechanics" ng function:

      1. Known_y's at known_x's . Sa isang simpleng linear regression model na may isang set lang ng x variable, known_y's atAng known_x's ay maaaring maging mga hanay ng anumang hugis hangga't mayroon silang parehong bilang ng mga row at column. Kung gagawa ka ng maramihang pagsusuri ng regression na may higit sa isang hanay ng mga independiyenteng x na mga variable, ang known_y's ay dapat na isang vector, ibig sabihin, isang hanay ng isang row o isang column.
      2. Pinipilit ang constant sa zero . Kapag ang const argument ay TRUE o inalis, ang a constant (intercept) ay kinakalkula at kasama sa equation: y=bx + a. Kung ang const ay nakatakda sa FALSE, ang intercept ay itinuturing na katumbas ng 0 at tinanggal sa equation ng regression: y=bx.

        Sa mga istatistika, pinagtatalunan nang ilang dekada kung makatuwirang pilitin ang pare-parehong intercept sa 0 o hindi. Maraming mapagkakatiwalaang practitioner ng pagsusuri ng regression ang naniniwala na kung ang pagtatakda ng intercept sa zero (const=FALSE) ay mukhang kapaki-pakinabang, kung gayon ang linear regression mismo ay isang maling modelo para sa set ng data. Ipinapalagay ng iba na ang pare-pareho ay maaaring pilitin sa zero sa ilang mga sitwasyon, halimbawa, sa konteksto ng mga disenyo ng regression discontinuity. Sa pangkalahatan, inirerekomendang gamitin ang default na const=TRUE o tinanggal sa karamihan ng mga kaso.

      3. Katumpakan . Ang katumpakan ng regression equation na kinakalkula ng LINEST function ay depende sa dispersion ng iyong mga data point. Kung mas linear ang data, mas tumpak ang mga resulta ng LINEST formula.
      4. Mga redundant x values . Sa ilang sitwasyon,Ang isa o higit pang independiyenteng x na mga variable ay maaaring walang karagdagang predictive na halaga, at ang pag-alis ng mga naturang variable mula sa regression model ay hindi makakaapekto sa katumpakan ng mga hinulaang y value. Ang phenomenon na ito ay kilala bilang "collinearity". Ang Excel LINEST function ay sumusuri para sa collinearity at inaalis ang anumang kalabisan x na mga variable na kinikilala nito mula sa modelo. Ang mga inalis na variable na x ay maaaring kilalanin ng 0 coefficient at 0 standard na halaga ng error.
      5. LINEST vs. SLOPE at INTERCEPT . Ang pinagbabatayan na algorithmic ng LINEST function ay naiiba sa algorithm na ginamit sa SLOPE at INTERCEPT function. Samakatuwid, kapag ang pinagmulan ng data ay hindi natukoy o collinear, ang mga function na ito ay maaaring magbalik ng iba't ibang mga resulta.

      Excel LINEST function ay hindi gumagana

      Kung ang iyong LINEST formula ay naghagis ng isang error o gumagawa ng isang maling output , malamang na ito ay dahil sa isa sa mga sumusunod na dahilan:

      1. Kung ang LINEST function ay nagbabalik lamang ng isang numero (slope coefficient), malamang na inilagay mo ito bilang isang regular na formula, hindi isang array formula. Siguraduhing pindutin ang Ctrl + Shift + Enter upang makumpleto nang tama ang formula. Kapag ginawa mo ito, ang formula ay napapaloob sa {curly brackets} na makikita sa formula bar.
      2. #REF! pagkakamali. Nagaganap kung ang mga hanay ng kilalang_x at kilalang_y ay may magkaibang dimensyon.
      3. #VALUE! pagkakamali. Nangyayari kung known_x's oAng known_y's ay naglalaman ng hindi bababa sa isang blangkong cell, text value o text na representasyon ng isang numero na hindi kinikilala ng Excel bilang numeric na halaga. Gayundin, ang #VALUE error ay nangyayari kung ang const o stats argument ay hindi masuri sa TRUE o FALSE.

      Ganyan mo ginagamit ang LINEST sa Excel para sa isang simple at maramihang linear regression analysis. Upang mas masusing tingnan ang mga formula na tinalakay sa tutorial na ito, malugod kang i-download ang aming sample na workbook sa ibaba. Salamat sa pagbabasa at umaasa akong makita ka sa aming blog sa susunod na linggo!

      Magsanay ng workbook para sa pag-download

      Mga halimbawa ng function ng Excel LINEST (.xlsx file)

      (nagsasaad ng steepness ng regression line, ibig sabihin, ang rate ng pagbabago para sa y habang nagbabago ang x).

    Sa pangunahing anyo nito, ibinabalik ng LINEST function ang intercept (a) at ang slope (b) para sa regression equation. Opsyonal, maaari rin itong magbalik ng mga karagdagang istatistika para sa pagsusuri ng regression tulad ng ipinapakita sa halimbawang ito.

    LINEST function syntax

    Ang syntax ng Excel LINEST function ay ang sumusunod:

    LINEST(known_y's , [known_x's], [const], [stats])

    Kung saan:

    • known_y's (kinakailangan) ay isang hanay ng umaasa na y -mga halaga sa equation ng regression. Kadalasan, ito ay isang column o isang solong row.
    • known_x's (opsyonal) ay isang hanay ng mga independiyenteng x-values. Kung aalisin, ito ay ipinapalagay na array {1,2,3,...} na may kaparehong laki ng known_y's .
    • const (opsyonal) - isang lohikal na halaga na tumutukoy kung paano dapat tratuhin ang intercept (constant a ):
      • Kung TRUE o inalis, normal na kinakalkula ang constant a .
      • Kung FALSE, ang constant a ay pinipilit sa 0 at ang slope ( b coefficient) ay kinakalkula upang magkasya sa y=bx.
    • stats (opsyonal) ay isang lohikal na halaga na tumutukoy kung maglalabas ng mga karagdagang istatistika o hindi:
      • Kung TRUE, ang LINEST function ay nagbabalik ng array na may karagdagang mga istatistika ng regression.
      • Kung FALSE o inalis, ibinabalik lamang ng LINEST ang intercept na constant at slope(mga) koepisyent.

    Tandaan. Dahil nagbabalik ang LINEST ng array ng mga value, dapat itong ilagay bilang array formula sa pamamagitan ng pagpindot sa Ctrl + Shift + Enter shortcut. Kung ito ay ipinasok bilang isang regular na formula, ang unang slope coefficient lamang ang ibabalik.

    Ang mga karagdagang istatistika na ibinalik ng LINEST

    Ang argument na stats na nakatakda sa TRUE ay nagtuturo sa LINEST function na ibalik ang mga sumusunod na istatistika para sa iyong pagsusuri ng regression:

    Statistic Paglalarawan
    Slope coefficient b value sa y = bx + a
    Intercept constant isang value sa y = bx + a
    Karaniwang error ng slope Ang karaniwang (mga) value ng error para sa b coefficient(s).
    Karaniwang error ng intercept Ang karaniwang halaga ng error para sa constant a .
    Coefficient of determination (R2) Isinasaad kung gaano kahusay na ipinapaliwanag ng regression equation ang relasyon sa pagitan ng mga variable.
    Karaniwang error para sa pagtatantya ng Y Ipinapakita ang katumpakan ng pagsusuri ng regression.
    F statistic, o ang F-observed value Ginagamit ito para gawin ang F-test para sa null hypothesis upang matukoy ang pangkalahatang kabutihan ng pagkakaangkop ng modelo.
    Mga antas ng fr eedom (df) Ang bilang ng mga antas ng kalayaan.
    Regression sum ng mga parisukat Isinasaad kung gaano kalaki ang pagkakaiba-iba saang dependent variable ay ipinaliwanag ng modelo.
    Residual sum of squares Sinusukat ang dami ng variance sa dependent variable na hindi ipinaliwanag ng iyong regression model.

    Ipinapakita ng mapa sa ibaba ang pagkakasunud-sunod kung saan nagbabalik ang LINEST ng hanay ng mga istatistika:

    Sa huling tatlong hilera, ang Lalabas ang #N/A error sa ikatlo at kasunod na mga column na hindi puno ng data. Ito ang default na gawi ng LINEST function, ngunit kung gusto mong itago ang mga notation ng error, balutin ang iyong LINEST formula sa IFERROR gaya ng ipinapakita sa halimbawang ito.

    Paano gamitin ang LINEST sa Excel - mga halimbawa ng formula

    Maaaring mahirap gamitin ang function na LINEST, lalo na para sa mga baguhan, dahil hindi ka lang dapat gumawa ng formula nang tama, ngunit dapat ding bigyang-kahulugan nang maayos ang output nito. Sa ibaba, makakakita ka ng ilang halimbawa ng paggamit ng mga formula ng LINEST sa Excel na sana ay makakatulong sa paglubog ng teoretikal na kaalaman sa :)

    Simple linear regression: kalkulahin ang slope at intercept

    Upang makuha ang intercept at ang slope ng isang regression line, ginagamit mo ang LINEST function sa pinakasimpleng anyo nito: magbigay ng hanay ng mga dependent value para sa argumento ng known_y's at isang hanay ng independent value para sa known_x's argumento. Ang huling dalawang argumento ay maaaring itakda sa TRUE o tanggalin.

    Halimbawa, na may y na mga halaga (mga numero ng benta) sa C2:C13 at x na mga halaga(gastos sa pag-advertise) sa B2:B13, ang aming linear regression formula ay kasing simple ng:

    =LINEST(C2:C13,B2:B13)

    Upang ilagay ito nang tama sa iyong worksheet, pumili ng dalawang magkatabing cell sa parehong row, E2: F2 sa halimbawang ito, i-type ang formula, at pindutin ang Ctrl + Shift + Enter para kumpletuhin ito.

    Ibabalik ng formula ang slope coefficient sa unang cell (E2) at ang intercept constant sa pangalawang cell (F2 ):

    Ang slope ay humigit-kumulang 0.52 (na bilugan sa dalawang decimal na lugar). Nangangahulugan ito na kapag ang x ay tumaas ng 1, ang y ay tumataas ng 0.52.

    Ang Y-intercept ay negatibo -4.99. Ito ang inaasahang halaga ng y kapag x=0. Kung naka-plot sa isang graph, ito ang value kung saan tumatawid ang linya ng regression sa y-axis.

    Ibigay ang mga value sa itaas sa isang simpleng linear regression equation, at makukuha mo ang sumusunod na formula para mahulaan ang numero ng mga benta batay sa halaga ng advertising:

    y = 0.52*x - 4.99

    Halimbawa, kung gumastos ka ng $50 sa advertising, inaasahang magbebenta ka ng 21 payong:

    0.52*50 - 4.99 = 21.01

    Ang mga halaga ng slope at intercept ay maaari ding makuha nang hiwalay sa pamamagitan ng paggamit ng kaukulang function o sa pamamagitan ng paglalagay ng LINEST formula sa INDEX:

    Slope

    =SLOPE(C2:C13,B2:B13)

    =INDEX(LINEST(C2:C13,B2:B13),1)

    Harang

    =INTERCEPT(C2:C13,B2:B13)

    =INDEX(LINEST(C2:C13,B2:B13),2)

    Tulad ng ipinapakita sa screenshot sa ibaba, lahat ng tatlong formula ay nagbubunga ng parehong mga resulta:

    Multiple linear regression: slope at intercept

    Kung sakaling mayroon kangdalawa o higit pang mga independyenteng variable, tiyaking ipasok ang mga ito sa katabing column, at ibigay ang buong hanay na iyon sa argumento ng kilalang_x's .

    Halimbawa, na may mga numero ng benta ( y value) sa D2:D13, gastos sa advertising (isang set ng x value) sa B2:B13 at average na buwanang pag-ulan (isa pang hanay ng x value) sa C2:C13, ginagamit mo ang formula na ito:

    =LINEST(D2:D13,B2:C13)

    Habang ang formula ay magbabalik ng array ng 3 value (2 slope coefficient at ang intercept constant), pipili kami ng tatlong magkadikit na cell sa parehong row, ilagay ang formula at pindutin ang Ctrl + Shift + Enter shortcut.

    Pakitandaan na ang multiple regression formula ay nagbabalik ng slope coefficient sa reverse order ng mga independent variable (mula kanan pakaliwa), na ay b n , b n-1 , …, b 2 , b 1 :

    Upang mahulaan ang numero ng benta, ibinibigay namin ang mga halagang ibinalik ng LINEST formula sa multiple regression equation:

    y = 0.3*x 2 + 0.19*x 1 - 10.74

    Para sa hal sapat, na may $50 na ginastos sa advertising at isang average na buwanang pag-ulan na 100 mm, inaasahang magbebenta ka ng humigit-kumulang 23 na payong:

    0.3*50 + 0.19*100 - 10.74 = 23.26

    Simple linear regression: hulaan ang dependent variable

    Bukod sa pagkalkula ng a at b na mga halaga para sa regression equation, ang Excel LINEST function ay maaari ding tantyahin ang dependent variable (y) batay sa kilalang independentvariable (x). Para dito, gumamit ka ng LINEST kasabay ng function na SUM o SUMPRODUCT.

    Halimbawa, narito kung paano mo makalkula ang bilang ng mga benta ng payong para sa susunod na buwan, halimbawa, Oktubre, batay sa mga benta sa mga nakaraang buwan at Ang badyet sa advertising ng Oktubre na $50:

    =SUM(LINEST(C2:C10, B2:B10)*{50,1})

    Sa halip na i-hardcode ang x na halaga sa formula, maaari mo itong ibigay bilang isang sanggunian ng cell. Sa kasong ito, kailangan mo ring ipasok ang 1 constant sa ilang cell dahil hindi mo maaaring paghaluin ang mga reference at value sa array constant.

    Gamit ang x value sa E2 at ang constant na 1 in F2, ang alinman sa mga formula sa ibaba ay gagana ng isang treat:

    Regular na formula (inilagay sa pamamagitan ng pagpindot sa Enter ):

    =SUMPRODUCT(LINEST(C2:C10, B2:B10)*(E2:F2))

    Array formula (ipinasok sa pamamagitan ng pagpindot sa Ctrl + Shift + Enter ):

    =SUM(LINEST(C2:C10, B2:B10)*(E2:F2))

    Upang i-verify ang resulta, maaari mong makuha ang intercept at slope para sa parehong data, at pagkatapos ay gamitin ang linear regression formula upang kalkulahin ang y :

    =E2*G2+F2

    Kung saan ang E2 ay ang slope, ang G2 ay ang halaga ng x , at ang F2 ay ang intercept:

    Multiple regression: predict dependent variable

    Kung sakaling humarap ka sa ilang predictor, ibig sabihin, ilang magkakaibang hanay ng x value, isama ang lahat ng iyon predictors sa array constant. Halimbawa, sa badyet sa advertising na $50 (x 2 ) at isang average na buwanang pag-ulan na 100 mm (x 1 ), ang formula ay napupunta bilangsumusunod:

    =SUM(LINEST(D2:D10, B2:C10)*{50,100,1})

    Kung saan ang D2:D10 ay ang mga kilalang y value at ang B2:C10 ay dalawang set ng x value:

    Pakibigyang pansin ang pagkakasunud-sunod ng mga x na halaga sa array constant. Gaya ng itinuro kanina, kapag ang Excel LINEST function ay ginagamit para gumawa ng maramihang regression, ibinabalik nito ang slope coefficients mula kanan pakaliwa. Sa aming halimbawa, unang ibinabalik ang Advertising coefficient, at pagkatapos ay ang Rainfall coefficient. Upang kalkulahin nang tama ang hinulaang numero ng benta, kailangan mong i-multiply ang mga coefficient sa mga katumbas na halaga ng x , para ilagay mo ang mga elemento ng array constant sa ganitong pagkakasunud-sunod: {50,100,1}. Ang huling elemento ay 1, dahil ang huling value na ibinalik ng LINEST ay ang intercept na hindi dapat baguhin, kaya i-multiply mo lang ito sa 1.

    Sa halip na gumamit ng array constant, maaari mong ipasok ang lahat ng x variable sa ilang mga cell, at i-reference ang mga cell na iyon sa iyong formula tulad ng ginawa namin sa nakaraang halimbawa.

    Regular na formula:

    =SUMPRODUCT(LINEST(D2:D10, B2:C10)*(F2:H2))

    Array formula:

    =SUM(LINEST(D2:D10, B2:C10)*(F2:H2))

    Kung saan ang F2 at G2 ay ang x na mga value at ang H2 ay 1:

    LINEST formula: karagdagang mga istatistika ng regression

    Tulad ng maaalala mo, upang makakuha ng higit pang mga istatistika para sa iyong pagsusuri ng regression, inilalagay mo ang TRUE sa huling argumento ng LINEST function. Inilapat sa aming sample na data, ang formula ay may sumusunod na hugis:

    =LINEST(D2:D13, B2:C13, TRUE, TRUE)

    Dahil mayroon kaming 2 independentvariable sa column B at C, pipili kami ng rage na binubuo ng 3 row (dalawang x value + intercept) at 5 column, ilagay ang formula sa itaas, pindutin ang Ctrl + Shift + Enter , at makuha ang resultang ito:

    Upang maalis ang #N/A error, maaari mong ilagay ang LINEST sa IFERROR tulad nito:

    =IFERROR(LINEST(D2:D13, B2:C13, TRUE, TRUE), "")

    Ipinapakita ng screenshot sa ibaba ang resulta at ipinapaliwanag kung ano ang ibig sabihin ng bawat numero ay:

    Ang mga slope coefficient at ang Y-intercept ay ipinaliwanag sa mga nakaraang halimbawa, kaya tingnan natin ang iba pang mga istatistika.

    Coefficient of determination (R2). Ang halaga ng R2 ay ang resulta ng paghahati ng regression sum ng mga parisukat sa kabuuang kabuuan ng mga parisukat. Sinasabi nito sa iyo kung gaano karaming mga halaga ng y ang ipinaliwanag ng mga variable na x . Maaari itong maging anumang numero mula 0 hanggang 1, iyon ay 0% hanggang 100%. Sa halimbawang ito, ang R2 ay humigit-kumulang 0.97, ibig sabihin, 97% ng aming mga dependent variable (umbrella sales) ay ipinaliwanag ng mga independent variable (advertising + average na buwanang pag-ulan), na isang mahusay na akma!

    Mga karaniwang error . Sa pangkalahatan, ipinapakita ng mga halagang ito ang katumpakan ng pagsusuri ng regression. Kung mas maliit ang mga numero, mas makakatiyak ka tungkol sa iyong modelo ng regression.

    F statistic . Ginagamit mo ang F statistic upang suportahan o tanggihan ang null hypothesis. Inirerekomenda na gamitin ang istatistika ng F kasama ang halaga ng P kapag nagpapasya kung ang mga pangkalahatang resulta ay

    Si Michael Brown ay isang dedikadong mahilig sa teknolohiya na may hilig sa pagpapasimple ng mga kumplikadong proseso gamit ang mga tool sa software. Sa higit sa isang dekada ng karanasan sa industriya ng tech, hinasa niya ang kanyang mga kasanayan sa Microsoft Excel at Outlook, pati na rin ang Google Sheets at Docs. Ang blog ni Michael ay nakatuon sa pagbabahagi ng kanyang kaalaman at kadalubhasaan sa iba, na nagbibigay ng madaling sundan na mga tip at mga tutorial para sa pagpapabuti ng pagiging produktibo at kahusayan. Isa ka mang batikang propesyonal o baguhan, nag-aalok ang blog ni Michael ng mahahalagang insight at praktikal na payo para masulit ang mahahalagang software tool na ito.