Pagsusuri ng linear regression sa Excel

  • Ibahagi Ito
Michael Brown

Ipinapaliwanag ng tutorial ang mga pangunahing kaalaman sa pagsusuri ng regression at nagpapakita ng ilang iba't ibang paraan upang gawin ang linear regression sa Excel.

Isipin mo ito: binibigyan ka ng maraming iba't ibang data at hinihiling na hulaan ang mga numero ng benta sa susunod na taon para sa iyong kumpanya. Natuklasan mo ang dose-dosenang, marahil daan-daan, ng mga kadahilanan na posibleng makaapekto sa mga numero. Ngunit paano mo malalaman kung alin ang talagang mahalaga? Patakbuhin ang pagsusuri ng regression sa Excel. Bibigyan ka nito ng sagot dito at sa marami pang tanong: Aling mga salik ang mahalaga at alin ang maaaring balewalain? Gaano kalapit ang kaugnayan ng mga salik na ito sa isa't isa? At gaano ka katiyak tungkol sa mga hula?

    Pagsusuri ng regression sa Excel - ang mga pangunahing kaalaman

    Sa pagmomodelo ng istatistika, ginagamit ang pagsusuri ng regression upang tantyahin ang mga ugnayan sa pagitan ng dalawa o higit pang mga variable:

    Dependyenteng variable (aka criterion variable) ang pangunahing salik na sinusubukan mong maunawaan at hulaan.

    Ang mga independiyenteng variable (aka nagpapaliwanag mga variable, o predictors ) ay ang mga salik na maaaring makaimpluwensya sa dependent variable.

    Tumutulong sa iyo ang pagsusuri ng regression maunawaan kung paano nagbabago ang dependent variable kapag nag-iiba-iba ang isa sa mga independyenteng variable at nagbibigay-daan sa matematika na matukoy kung alin sa mga variable na iyon ang talagang may epekto.

    Sa teknikal, ang isang regression analysis model ay batay sa sum ng

    Sa puntong ito, ang iyong chart ay mukhang isang disenteng regression graph:

    Gayunpaman, maaaring gusto mong gumawa ng ilang higit pang mga pagpapabuti:

    • I-drag ang equation kung saan mo nakikitang angkop.
    • Magdagdag ng mga pamagat ng axes ( Mga Elemento ng Chart na button > Mga Pamagat ng Axis ).
    • Kung ang iyong Ang mga punto ng data ay nagsisimula sa gitna ng pahalang at/o patayong axis tulad ng sa halimbawang ito, maaaring gusto mong alisin ang sobrang puting espasyo. Ipinapaliwanag ng sumusunod na tip kung paano ito gagawin: I-scale ang mga axes ng tsart upang bawasan ang puting espasyo.

      At ganito ang hitsura ng aming pinahusay na regression graph:

      Mahalagang tala! Sa regression graph, ang independent variable ay dapat palaging nasa X axis at ang dependent variable sa Y axis. Kung ang iyong graph ay naka-plot sa reverse order, palitan ang mga column sa iyong worksheet, at pagkatapos ay iguhit muli ang chart. Kung hindi ka pinapayagang muling ayusin ang source data, maaari mong ilipat ang X at Y axes nang direkta sa isang chart.

    Paano gawin ang regression sa Excel gamit ang mga formula

    May ilang istatistikal na function ang Microsoft Excel na makakatulong sa iyong gawin ang linear regression analysis gaya ng LINEST, SLOPE, INTERCEPT, at CORREL.

    Ang LINEST function ay gumagamit ng least squares regression na paraan upang kalkulahin ang isang straight linyang pinakamahusay na nagpapaliwanag sa kaugnayan sa pagitan ng iyong mga variable at nagbabalik ng array na naglalarawan sa linyang iyon. Mahahanap mo ang detalyadong paliwanag ngang syntax ng function sa tutorial na ito. Sa ngayon, gumawa na lang tayo ng formula para sa ating sample na dataset:

    =LINEST(C2:C25, B2:B25)

    Dahil ang LINEST function ay nagbabalik ng array ng mga value, dapat mo itong ilagay bilang array formula. Pumili ng dalawang magkatabing cell sa parehong row, E2:F2 sa aming kaso, i-type ang formula, at pindutin ang Ctrl + Shift + Enter upang makumpleto ito.

    Ibinabalik ng formula ang b coefficient ( E1) at ang a constant (F1) para sa pamilyar nang linear regression equation:

    y = bx + a

    Kung iiwasan mo ang paggamit ng mga array formula sa iyong worksheet, maaari mong kalkulahin ang a at b nang paisa-isa na may mga regular na formula:

    Kunin ang Y-intercept (a):

    =INTERCEPT(C2:C25, B2:B25)

    Kunin ang slope (b):

    =SLOPE(C2:C25, B2:B25)

    Bukod pa rito, mahahanap mo ang correlation coefficient ( Multiple R sa regression analysis summary output) na nagsasaad kung paano mahigpit na nauugnay ang dalawang variable sa isa't isa:

    =CORREL(B2:B25,C2:C25)

    Ipinapakita ng sumusunod na screenshot ang lahat ng mga formula ng Excel regression na ito sa pagkilos:

    Tip. Kung gusto mong makakuha ng mga karagdagang istatistika para sa iyong pagsusuri ng regression, gamitin ang LINEST function na may parameter na s tats na nakatakda sa TRUE gaya ng ipinapakita sa halimbawang ito.

    Ganito ka gumagawa ng linear regression sa Excel. Sabi nga, pakitandaan na ang Microsoft Excel ay hindi isang statistical program. Kung kailangan mong magsagawa ng pagsusuri ng regression sa propesyonal na antas, maaaring gusto mong gumamit ng naka-targetsoftware tulad ng XLSTAT, RegressIt, atbp.

    Upang mas masusing tingnan ang aming mga formula ng linear regression at iba pang mga diskarteng tinalakay sa tutorial na ito, maaari kang mag-download ng aming sample na workbook sa ibaba. Salamat sa pagbabasa!

    Practice workbook

    Regression Analysis sa Excel - mga halimbawa (.xlsx file)

    squares, na isang mathematical na paraan upang mahanap ang dispersion ng mga data point. Ang layunin ng isang modelo ay makuha ang pinakamaliit na posibleng kabuuan ng mga parisukat at gumuhit ng linya na pinakamalapit sa data.

    Sa mga istatistika, pinag-iiba nila ang pagitan ng simple at multiple linear regression. Simple linear regression ipinamodelo ang ugnayan sa pagitan ng dependent variable at isang independent variable gamit ang linear function. Kung gumagamit ka ng dalawa o higit pang mga paliwanag na variable upang mahulaan ang dependent variable, haharapin mo ang multiple linear regression . Kung ang dependent variable ay namodelo bilang isang non-linear na function dahil ang mga relasyon ng data ay hindi sumusunod sa isang tuwid na linya, gamitin ang nonlinear regression sa halip. Ang focus ng tutorial na ito ay nasa isang simpleng linear regression.

    Bilang halimbawa, kunin natin ang mga numero ng benta para sa mga payong sa nakalipas na 24 na buwan at alamin ang average na buwanang pag-ulan para sa parehong panahon. I-plot ang impormasyong ito sa isang chart, at ang linya ng regression ay magpapakita ng kaugnayan sa pagitan ng independent variable (rainfall) at dependent variable (umbrella sales):

    Linear regression equation

    Mathematically, a linear regression ay tinukoy ng equation na ito:

    y = bx + a + ε

    Kung saan:

    • x ay isang independent variable.
    • <1 Ang>y ay isang dependent variable.
    • a ay ang Y-intercept , na siyang inaasahang mean value ng y kapag ang lahat ng x na mga variable ay katumbas ng 0. Sa isang regression graph, ito ang punto kung saan ang linya ay tumatawid sa Y axis.
    • b ay ang slope ng isang regression line, na siyang rate ng pagbabago para sa y habang nagbabago ang x .
    • ε ay ang random na error term, na siyang pagkakaiba sa pagitan ng aktwal na halaga ng isang dependent variable at ang hinulaang halaga nito.

    Ang linear regression equation ay palaging may error term dahil, sa totoong buhay, ang mga predictor ay hindi kailanman ganap na tumpak. Gayunpaman, ang ilang mga programa, kabilang ang Excel, ay gumagawa ng pagkalkula ng termino ng error sa likod ng mga eksena. Kaya, sa Excel, gumagawa ka ng linear regression gamit ang least squares na pamamaraan at naghahanap ng mga coefficient a at b na ganito:

    y = bx + a

    Para sa aming halimbawa, ang linear regression equation ay may sumusunod na hugis:

    Umbrellas sold = b * rainfall + a

    Mayroong ilang iba't ibang paraan upang mahanap ang a at b . Ang tatlong pangunahing paraan para magsagawa ng linear regression analysis sa Excel ay:

    • Regression tool na kasama sa Analysis ToolPak
    • Scatter chart na may trendline
    • Linear regression formula

    Sa ibaba makikita mo ang mga detalyadong tagubilin sa paggamit ng bawat pamamaraan.

    Paano gawin ang linear regression sa Excel gamit ang Analysis ToolPak

    Ipinapakita ng halimbawang ito kung paano patakbuhin ang regression sa Excel sa pamamagitan ng paggamit ng isang espesyal na tool na kasama sa Add-in ng Analysis ToolPak.

    Paganahin ang Add-in ng Analysis ToolPak.sa

    Analysis ToolPak ay available sa lahat ng bersyon ng Excel 365 hanggang 2003 ngunit hindi pinagana bilang default. Kaya, kailangan mong i-on ito nang manu-mano. Ganito:

    1. Sa iyong Excel, i-click ang File > Options .
    2. Sa Excel Options dialog box, piliin ang Mga Add-in sa kaliwang sidebar, siguraduhing ang Excel Add-in ay napili sa Pamahalaan box, at i-click ang Go .
    3. Sa dialog box na Mga Add-in , lagyan ng check ang Analysis Toolpak , at i-click ang OK :

    Idaragdag nito ang Pagsusuri ng Data na mga tool sa tab na Data ng iyong Excel ribbon.

    Patakbuhin ang pagsusuri ng regression

    Sa halimbawang ito, gagawa tayo ng simpleng linear regression sa Excel. Ang mayroon kami ay isang listahan ng average na buwanang pag-ulan para sa huling 24 na buwan sa column B, na kung saan ay ang aming independent variable (predictor), at ang bilang ng mga payong na ibinebenta sa column C, na siyang dependent variable. Siyempre, maraming iba pang salik na maaaring makaapekto sa mga benta, ngunit sa ngayon ay tumutuon lamang kami sa dalawang variable na ito:

    Kapag naka-enable ang Analysis Toolpak, isagawa ang mga hakbang na ito upang magsagawa ng pagsusuri ng regression sa Excel:

    1. Sa tab na Data , sa grupong Analysis , i-click ang button na Pagsusuri ng Data .
    2. Piliin ang Regression at i-click ang OK .
    3. Sa dialog box na Regression , i-configure ang mga sumusunod na setting:
      • Piliin ang InputY Range , na iyong dependent variable . Sa aming kaso, ito ay umbrella sales (C1:C25).
      • Piliin ang Input X Range , ibig sabihin, ang iyong independent variable . Sa halimbawang ito, ito ang average na buwanang pag-ulan (B1:B25).

      Kung gagawa ka ng multiple regression model, pumili ng dalawa o higit pang magkatabing column na may iba't ibang independent variable.

      • Lagyan ng check ang Kahon ng Mga Label kung may mga header sa tuktok ng iyong X at Y na hanay.
      • Piliin ang iyong ginustong Opsyon sa Output, isang bagong worksheet sa aming kaso.
      • Opsyonal, piliin ang checkbox na Residuals upang makuha ang pagkakaiba sa pagitan ng hinulaang at aktwal na mga halaga.
    4. I-click ang OK at obserbahan ang regression analysis output na ginawa ng Excel.

    I-interpret ang regression analysis output

    Tulad ng nakita mo na, ang pagpapatakbo ng regression sa Excel ay madali dahil ang lahat ng mga kalkulasyon ay awtomatikong na-preform. Ang interpretasyon ng mga resulta ay medyo nakakalito dahil kailangan mong malaman kung ano ang nasa likod ng bawat numero. Makakakita ka sa ibaba ng breakdown ng 4 na pangunahing bahagi ng output ng pagsusuri ng regression.

    Output ng pagsusuri ng regression: Output ng Buod

    Sinasabi sa iyo ng bahaging ito kung gaano kahusay ang pagkakatugma ng nakalkulang linear regression equation sa iyong source data.

    Narito ang ibig sabihin ng bawat piraso ng impormasyon:

    Multiple R . Ito ay ang C orrelation Coefficient na sumusukat sa lakas ngisang linear na relasyon sa pagitan ng dalawang variable. Ang correlation coefficient ay maaaring maging anumang halaga sa pagitan ng -1 at 1, at ang absolute value nito ay nagpapahiwatig ng lakas ng relasyon. Kung mas malaki ang absolute value, mas malakas ang relasyon:

    • 1 ay nangangahulugang isang malakas na positibong relasyon
    • -1 ay nangangahulugang isang malakas na negatibong relasyon
    • 0 ay nangangahulugang walang kaugnayan sa lahat

    R Square . Ito ang Coefficient of Determination , na ginagamit bilang indicator ng goodness of fit. Ipinapakita nito kung gaano karaming mga puntos ang nahuhulog sa linya ng regression. Ang halaga ng R2 ay kinakalkula mula sa kabuuang kabuuan ng mga parisukat, mas tiyak, ito ay ang kabuuan ng mga squared deviations ng orihinal na data mula sa mean.

    Sa aming halimbawa, ang R2 ay 0.91 (na bilugan sa 2 digit) , which is fairy good. Nangangahulugan ito na 91% ng aming mga halaga ay umaangkop sa modelo ng pagsusuri ng regression. Sa madaling salita, 91% ng mga dependent variable (y-values) ay ipinaliwanag ng mga independent variable (x-values). Sa pangkalahatan, ang R Squared na 95% o higit pa ay itinuturing na isang magandang akma.

    Adjusted R Square . Ito ang R square na inayos para sa bilang ng independent variable sa modelo. Gusto mong gamitin ang value na ito sa halip na R square para sa pagsusuri ng maramihang regression.

    Standard Error . Ito ay isa pang sukatan ng goodness-of-fit na nagpapakita ng katumpakan ng iyong pagsusuri ng regression - kung mas maliit ang bilang, mas sigurado ka tungkol saiyong regression equation. Habang kinakatawan ng R2 ang porsyento ng pagkakaiba-iba ng mga dependent variable na ipinaliwanag ng modelo, ang Standard Error ay isang ganap na sukat na nagpapakita ng average na distansya na bumabagsak ang mga punto ng data mula sa linya ng regression.

    Mga Obserbasyon . Ito ay simpleng bilang ng mga obserbasyon sa iyong modelo.

    Regression analysis output: ANOVA

    Ang pangalawang bahagi ng output ay Analysis of Variance (ANOVA):

    Sa pangkalahatan, hinahati nito ang kabuuan ng mga parisukat sa mga indibidwal na bahagi na nagbibigay ng impormasyon tungkol sa mga antas ng pagkakaiba-iba sa loob ng iyong modelo ng regression:

    • df ay ang bilang ng mga antas ng kalayaan na nauugnay sa mga pinagmulan ng pagkakaiba.
    • SS ay ang kabuuan ng mga parisukat. Kung mas maliit ang Residual SS kumpara sa Total SS, mas angkop ang iyong modelo sa data.
    • MS ang mean square.
    • F ay ang F statistic, o F-test para sa null hypothesis. Ito ay ginagamit upang subukan ang kabuuang kahalagahan ng modelo.
    • Significance F ay ang P-value ng F.

    Ang bahagi ng ANOVA ay bihirang ginagamit para sa isang simpleng linear regression analysis sa Excel, ngunit dapat ay tiyak na masusing tingnan ang huling bahagi. Ang halaga ng Significance F ay nagbibigay ng ideya kung gaano ka maaasahan (statistikong makabuluhan) ang iyong mga resulta. Kung ang Significance F ay mas mababa sa 0.05 (5%), ang iyong modelo ay OK. Kung mas malaki ito sa 0.05, gagawin momarahil ay mas mahusay na pumili ng isa pang independent variable.

    Regression analysis output: coefficients

    Ang seksyong ito ay nagbibigay ng partikular na impormasyon tungkol sa mga bahagi ng iyong pagsusuri:

    Ang pinakakapaki-pakinabang na bahagi sa seksyong ito ay Mga Coefficient . Binibigyang-daan ka nitong bumuo ng isang linear regression equation sa Excel:

    y = bx + a

    Para sa aming set ng data, kung saan ang y ay ang bilang ng mga payong na nabenta at ang x ay isang average na buwanang pag-ulan, ang aming linear regression formula ay ganito:

    Y = Rainfall Coefficient * x + Intercept

    Nilagyan ng a at b na mga halaga na binilog sa tatlong decimal na lugar, ito ay nagiging:

    Y=0.45*x-19.074

    Halimbawa, sa average na buwanang pag-ulan na katumbas ng 82 mm, ang benta ng payong ay magiging humigit-kumulang 17.8:

    0.45*82-19.074=17.8

    Sa katulad na paraan, maaari mong malaman kung gaano karaming mga payong ang magiging ibinebenta kasama ng anumang iba pang buwanang pag-ulan (x variable) na iyong tinukoy.

    Regression analysis output: residuals

    Kung ihahambing mo ang tinantyang at aktwal na bilang ng mga nabentang payong na tumutugma sa buwanang pag-ulan na 82 mm, makikita mong bahagyang naiiba ang mga numerong ito:

    • Tinantyang: 17.8 (kinakalkula sa itaas)
    • Actual: 15 (row 2 ng source data)

    Bakit ang pagkakaiba? Dahil ang mga independyenteng variable ay hindi kailanman perpektong tagahula ng mga umaasang variable. At matutulungan ka ng mga nalalabi na maunawaan kung gaano kalayo ang aktwal na mga halaga mula sa mga hinulaang halaga:

    Para saang unang punto ng data (pag-ulan ng 82 mm), ang nalalabi ay humigit-kumulang -2.8. Kaya, idinaragdag namin ang numerong ito sa hinulaang halaga, at makuha ang aktwal na halaga: 17.8 - 2.8 = 15.

    Paano gumawa ng linear regression graph sa Excel

    Kung kailangan mong mabilis na mailarawan ang relasyon sa pagitan ng dalawang variable, gumuhit ng linear regression chart. Napakadali niyan! Ganito:

    1. Piliin ang dalawang column kasama ng iyong data, kasama ang mga header.
    2. Sa tab na Inset , sa grupong Mga Chat , i-click ang icon na Scatter chart , at piliin ang thumbnail na Scatter (ang una):

      Maglalagay ito ng scatter plot sa iyong worksheet, na magiging katulad nito isa:

    3. Ngayon, kailangan nating gumuhit ng pinakamaliit na parisukat na linya ng regression. Upang magawa ito, mag-right click sa anumang punto at piliin ang Magdagdag ng Trendline... mula sa menu ng konteksto.
    4. Sa kanang pane, piliin ang Linear na hugis ng trendline at, opsyonal, suriin ang Display Equation sa Chart upang makuha ang iyong regression formula:

      Gaya ng mapapansin mo, ang regression equation na ginawa ng Excel para sa amin ay kapareho ng linear regression formula na binuo namin batay sa Coefficients na output.

    5. Lumipat sa Punan & Line tab at i-customize ang linya ayon sa gusto mo. Halimbawa, maaari kang pumili ng ibang kulay ng linya at gumamit ng solidong linya sa halip na isang dashed line (piliin ang Solid line sa Dash type box):

    Si Michael Brown ay isang dedikadong mahilig sa teknolohiya na may hilig sa pagpapasimple ng mga kumplikadong proseso gamit ang mga tool sa software. Sa higit sa isang dekada ng karanasan sa industriya ng tech, hinasa niya ang kanyang mga kasanayan sa Microsoft Excel at Outlook, pati na rin ang Google Sheets at Docs. Ang blog ni Michael ay nakatuon sa pagbabahagi ng kanyang kaalaman at kadalubhasaan sa iba, na nagbibigay ng madaling sundan na mga tip at mga tutorial para sa pagpapabuti ng pagiging produktibo at kahusayan. Isa ka mang batikang propesyonal o baguhan, nag-aalok ang blog ni Michael ng mahahalagang insight at praktikal na payo para masulit ang mahahalagang software tool na ito.