Lineêre regressionanalyse yn Excel

  • Diel Dit
Michael Brown

De tutorial ferklearret de basis fan regression-analyze en lit in pear ferskillende manieren sjen om lineêre regression yn Excel te dwaan.

Stel jo dit foar: jo binne foarsjoen fan in hiel soad ferskillende gegevens en wurde frege de ferkeapsifers fan takom jier foar jo bedriuw te foarsizzen. Jo hawwe tsientallen, miskien sels hûnderten, faktoaren ûntdutsen dy't mooglik ynfloed kinne op de sifers. Mar hoe witte jo hokker echt wichtich binne? Run regression analyze yn Excel. It sil jo in antwurd jaan op dizze en noch folle mear fragen: Hokker faktoaren binne fan belang en hokker kinne wurde negeare? Hoe nau binne dizze faktoaren besibbe oan elkoar? En hoe wis kinne jo wêze oer de foarsizzings?

    Regression-analyze yn Excel - de basis

    Yn statistyske modellering wurdt regression-analyze brûkt om skatte de relaasjes tusken twa of mear fariabelen:

    Ofhinklike fariabele (aka kriterium fariabele) is de wichtichste faktor dy't jo besykje te begripen en te foarsizzen.

    Unôfhinklike fariabelen (aka ferklearjende fariabelen, of foarsizzers ) binne de faktoaren dy't de ôfhinklike fariabele beynfloedzje kinne.

    Regression-analyze helpt jo begripe hoe't de ôfhinklike fariabele feroaret as ien fan 'e ûnôfhinklike fariabelen fariearret en makket it mooglik om wiskundich te bepalen hokker fan dy fariabelen echt in ynfloed hat.

    Technysk is in model foar regression-analyze basearre op de som fan

    Op dit punt liket jo diagram al as in fatsoenlike regressiongrafyk:

    Dochs wolle jo noch in pear ferbetterings meitsje:

    • Sleep de fergeliking wêr't jo it goed fine.
    • As titels tafoegje ( Chart Elements knop > Axis Titles ).
    • As jo gegevenspunten begjinne yn 'e midden fan' e horizontale en / of fertikale as lykas yn dit foarbyld, jo kinne de oerstallige wite romte kwytreitsje. De folgjende tip ferklearret hoe't jo dit dwaan: Skaalje de diagramassen om wite romte te ferminderjen.

      En dit is hoe't ús ferbettere regressiongrafyk derút sjocht:

      Wichtige opmerking! Yn 'e regressiongrafyk moat de ûnôfhinklike fariabele altyd op' e X-as wêze en de ôfhinklike fariabele op 'e Y-as. As jo ​​grafyk wurdt plotted yn 'e omkearde folchoarder, ruilje de kolommen yn jo wurkblêd, en dan tekenje de grafyk op 'e nij. As jo ​​net tastien binne om de boarnegegevens opnij te regeljen, dan kinne jo de X- en Y-assen direkt yn in diagram wikselje.

    Hoe kinne jo regression yn Excel dwaan mei formules

    Microsoft Excel hat in pear statistyske funksjes dy't jo kinne helpe om lineêre regression-analyze te dwaan lykas LINEST, SLOPE, INTERCEPT en CORREL.

    De LINEST-funksje brûkt de minste-kwadraten-regressionmetoade om in rjochte te berekkenjen line dy't de relaasje tusken jo fariabelen it bêste ferklearret en jout in array dy't dizze line beskriuwt. Jo kinne fine de detaillearre útlis fande syntaksis fan 'e funksje yn dizze tutorial. Litte wy no gewoan in formule meitsje foar ús foarbyldgegevensset:

    =LINEST(C2:C25, B2:B25)

    Om't de LINEST-funksje in array fan wearden werombringt, moatte jo it ynfiere as in arrayformule. Selektearje twa neistlizzende sellen yn deselde rige, E2:F2 yn ús gefal, typ de formule, en druk op Ctrl + Shift + Enter om it te foltôgjen.

    De formule jout de b -koëffisjint werom ( E1) en de konstante a (F1) foar de al bekende lineêre regressionfergeliking:

    y = bx + a

    As jo ​​foarkomme dat jo arrayformules yn jo wurkblêden brûke, kinne jo a en b yndividueel mei reguliere formules:

    Krij de Y-ôfsnijding (a):

    =INTERCEPT(C2:C25, B2:B25)

    Krij de helling (b):

    =SLOPE(C2:C25, B2:B25)

    Dêrby kinne jo de korrelaasjekoëffisjint fine ( Multiple R yn 'e gearfettingsútfier fan regression-analyze) dy't oanjout hoe't sterk binne de twa fariabelen besibbe oan elkoar:

    =CORREL(B2:B25,C2:C25)

    De folgjende skermôfbylding lit al dizze Excel-regressionformules yn aksje sjen:

    Tip. As jo ​​ekstra statistyk krije wolle foar jo regression-analyze, brûk dan de LINEST-funksje mei de parameter s tats ynsteld op TRUE lykas yn dit foarbyld sjen litten.

    Sa dogge jo lineêre regression yn Excel. Dat sei, hâld asjebleaft yn gedachten dat Microsoft Excel gjin statistysk programma is. As jo ​​​​regression-analyze op it profesjonele nivo moatte útfiere, kinne jo doelgroep brûkesoftware lykas XLSTAT, RegressIt, ensfh.

    Om ús lineêre regressionformules en oare techniken dy't yn dizze tutorial besprutsen binne, neier te besjen, binne jo wolkom om ús foarbyldwurkboek hjirûnder te downloaden. Tankewol foar it lêzen!

    Oefenwurkboek

    Regression-analyze yn Excel - foarbylden (.xlsx-bestân)

    squares, dat is in wiskundige manier om de fersprieding fan gegevenspunten te finen. It doel fan in model is om de lytste mooglike som fan kwadraten te krijen en in line te tekenjen dy't it tichtst by de gegevens komt.

    Yn statistiken meitsje se ûnderskied tusken in ienfâldige en meardere lineêre regression. Ienfâldige lineêre regression. modellearret de relaasje tusken in ôfhinklike fariabele en ien ûnôfhinklike fariabele mei in lineêre funksje. As jo ​​twa of mear ferklearjende fariabelen brûke om de ôfhinklike fariabele te foarsizzen, dogge jo mei meardere lineêre regression . As de ôfhinklike fariabele wurdt modelearre as in net-lineêre funksje omdat de gegevens relaasjes net folgje in rjochte line, brûk net-lineêre regression ynstee. De fokus fan dizze tutorial sil wêze op in ienfâldige lineêre regression.

    As foarbyld, litte wy de ferkeapnûmers nimme foar paraplu's foar de lêste 24 moannen en fine de gemiddelde moanlikse delslach foar deselde perioade. Plot dizze ynformaasje op in diagram, en de regressionline sil de relaasje sjen litte tusken de ûnôfhinklike fariabele (reinfal) en ôfhinklike fariabele (parapluferkeap):

    Lineêre regression-fergeliking

    Wiskundich, in lineêre regression wurdt definiearre troch dizze fergeliking:

    y = bx + a + ε

    Wêr:

    • x is in ûnôfhinklike fariabele.
    • y is in ôfhinklike fariabele.
    • a is de Y-ôfsnijding , dat is de ferwachte gemiddelde wearde fan y as alle x fariabelen gelyk binne oan 0. Op in regressiongrafyk is it it punt dêr't de line de Y-as krúst.
    • b is de helling fan in regressionline, dat is de snelheid fan feroaring foar y as x feroaret.
    • ε is de willekeurige flater term, dat is it ferskil tusken de werklike wearde fan in ôfhinklike fariabele en de foarseine wearde.

    De lineêre regression-fergeliking hat altyd in flaterterm, om't foarsizzers yn it echte libben nea folslein presys binne. Guon programma's, ynklusyf Excel, dogge lykwols de flatertermberekkening efter de skermen. Dus, yn Excel, dogge jo lineêre regression mei de metoade kleinste kwadraten en sykje koëffisjinten a en b sa dat:

    y = bx + a

    Foar ús foarbyld nimt de lineêre regressionfergeliking de folgjende foarm oan:

    Umbrellas sold = b * rainfall + a

    Der besteane in hantsjefol ferskillende manieren om a en b . De trije haadmetoaden foar it útfieren fan lineêre regression-analyse yn Excel binne:

    • Regression-ark opnommen mei Analysis ToolPak
    • Scatter-diagram mei in trendline
    • Lineêre regressionformule

    Hjirûnder fine jo de detaillearre ynstruksjes oer it brûken fan elke metoade.

    Hoe kinne jo lineêre regression yn Excel dwaan mei Analysis ToolPak

    Dit foarbyld lit sjen hoe't jo regression útfiere yn Excel troch in spesjaal ark te brûken dat by de Add-in Analysis ToolPak is.

    De Add-on Analysis ToolPak ynskeakelje-yn

    Analysis ToolPak is beskikber yn alle ferzjes fan Excel 365 oant 2003, mar is net standert ynskeakele. Dat, jo moatte it manuell ynskeakelje. Hjir is hoe:

    1. Klik yn jo Excel Triem > Opsjes .
    2. Yn de Excel-opsjes dialoochfinster, selektearje Tafoegings op de linker sydbalke, soargje derfoar dat Excel-tafoegings selektearre is yn it fak Beheare , en klikje op Gean .
    3. Yn it dialoochfinster Tafoegings , tikke Analysis Toolpak oan en klikje op OK :

    Dit sil de Gegevensanalyse -ark taheakje oan it ljepblêd Data fan jo Excel-lint.

    Regression-analyze útfiere

    In dit foarbyld, wy sille dwaan in ienfâldige lineêre regression yn Excel. Wat wy hawwe is in list fan gemiddelde moanlikse delslach foar de lêste 24 moannen yn kolom B, dat is ús ûnôfhinklike fariabele (foarsizzer), en it oantal paraplu's ferkocht yn kolom C, dat is de ôfhinklike fariabele. Fansels binne d'r in protte oare faktoaren dy't de ferkeap kinne beynfloedzje, mar foar no rjochtsje wy ús allinich op dizze twa fariabelen:

    Mei Analysis Toolpak tafoege ynskeakele, fiere dizze stappen út om regression-analyse út te fieren yn Excel:

    1. Op de Data ljepper, yn de Analyse groep, klikje op de Data Analysis knop.
    2. Selektearje Regression en klik op OK .
    3. Konfigurearje yn it dialoochfinster Regression de folgjende ynstellings:
      • Selektearje de YnputY Range , dat is jo ôfhinklike fariabele . Yn ús gefal is it parapluferkeap (C1:C25).
      • Selektearje de Ynput X-berik , dus jo ûnôfhinklike fariabele . Yn dit foarbyld is it de gemiddelde moanlikse delslach (B1:B25).

      As jo ​​in meardere regressionmodel bouwe, selektearje dan twa of mear neistlizzende kolommen mei ferskate ûnôfhinklike fariabelen.

      • Kontrolearje it fakje Etiketten as der kopteksten boppe oan jo X- en Y-berik binne.
      • Kies jo foarkar Utfieropsje, in nij wurkblêd yn ús case.
      • Selektearje opsjoneel it karfakje Residuals om it ferskil te krijen tusken de foarseine en werklike wearden.
    4. Klik op OK en observearje de útfier fan regression-analyze dy't makke is troch Excel. 0> Lykas jo krekt hawwe sjoen, is it útfieren fan regression yn Excel maklik, om't alle berekkeningen automatysk wurde foarfoarme. De ynterpretaasje fan 'e resultaten is wat lestiger, om't jo moatte witte wat der efter elk nûmer sit. Hjirûnder fine jo in ferdieling fan 4 grutte dielen fan de útfier fan regression-analyze.

    Regression-analyze-útfier: Gearfetting-útfier

    Dit diel fertelt jo hoe goed de berekkene lineêre regression-fergeliking past by jo boarnegegevens.

    Hjir is wat elk stikje ynformaasje betsjut:

    Meardere R . It is de C relaasjekoëffisjint dy't de sterkte fanin lineêre relaasje tusken twa fariabelen. De korrelaasjekoëffisjint kin elke wearde wêze tusken -1 en 1, en syn absolute wearde jout de relaasjesterkte oan. Hoe grutter de absolute wearde, hoe sterker de relaasje:

    • 1 betsjut in sterke positive relaasje
    • -1 betsjut in sterke negative relaasje
    • 0 betsjut gjin relaasje by allegear

    R Square . It is de Bepalingskoëffisjint , dy't brûkt wurdt as in yndikator foar de goedens fan fit. It lit sjen hoefolle punten falle op de regression line. De R2-wearde wurdt berekkene út 'e totale som fan kwadraten, krekter is it de som fan' e kwadrate ôfwikingen fan 'e oarspronklike gegevens fan' e gemiddelde.

    Yn ús foarbyld is R2 0,91 (ôfrûn op 2 sifers) , dat is fairy goed. It betsjut dat 91% fan ús wearden passe by it model foar regression-analyse. Mei oare wurden, 91% fan de ôfhinklike fariabelen (y-wearden) wurde ferklearre troch de ûnôfhinklike fariabelen (x-wearden). Algemien wurdt R Squared fan 95% of mear beskôge as in goede fit.

    Adjusted R Square . It is it R-plein oanpast foar it oantal ûnôfhinklike fariabelen yn it model. Jo wolle dizze wearde brûke ynstee fan R fjouwerkant foar analyse fan meardere regression.

    Standertflater . It is in oare goede-of-fit-maat dy't de krektens fan jo regression-analyse toant - hoe lytser it oantal, hoe wisker jo kinne wêze oerdyn regression fergeliking. Wylst R2 fertsjintwurdiget it persintaazje fan de ôfhinklike fariabelen fariânsje dat wurdt ferklearre troch it model, Standert flater is in absolute maatregel dy't toant de gemiddelde ôfstân dat de gegevens punten falle út de regression line.

    Observaasjes . It is gewoan it oantal observaasjes yn jo model.

    Regression-analyze-útfier: ANOVA

    It twadde diel fan 'e útfier is Analysis of Variance (ANOVA):

    Basis, it splitst de som fan kwadraten yn yndividuele komponinten dy't ynformaasje jouwe oer de nivo's fan fariabiliteit yn jo regressionmodel:

    • df is it oantal frijheidsgraden dy't ferbûn binne mei de boarnen fan fariânsje.
    • SS is de som fan kwadraten. Hoe lytser de Residual SS yn ferliking mei de Total SS, hoe better jo model by de gegevens past.
    • MS is it gemiddelde fjouwerkant.
    • F is de F-statistyk, of F-test foar de nulhypoteze. It wurdt brûkt om de algemiene betsjutting fan it model te testen.
    • Betekenis F is de P-wearde fan F.

    It ANOVA-diel wurdt selden brûkt foar in ienfâldige lineêre regression analyze yn Excel, mar jo moatte perfoarst hawwe in nauwe blik op de lêste komponint. De Betekenis F wearde jout in idee fan hoe betrouber (statistysk signifikant) jo resultaten binne. As betsjutting F minder is as 0,05 (5%), is jo model OK. As it grutter is as 0,05, dan moatte jowierskynlik better in oare ûnôfhinklike fariabele kieze.

    Regression-analyze-útfier: koeffizienten

    Dizze seksje jout spesifike ynformaasje oer de komponinten fan jo analyse:

    De meast brûkbere komponint yn dizze seksje is Koeffisienten . It stelt jo yn steat om in lineêre regression-fergeliking te bouwen yn Excel:

    y = bx + a

    Foar ús gegevensset, wêr't y it oantal ferkochte paraplu's is en x in gemiddelde moanlikse delslach is, ús formule foar lineêre regression giet as folget:

    Y = Rainfall Coefficient * x + Intercept

    Utsjoen fan a- en b-wearden ôfrûn op trije desimale plakken, feroaret it yn:

    Y=0.45*x-19.074

    Bygelyks, mei de gemiddelde moanlikse delslach lyk oan 82 mm, soe de parapluferkeap sawat 17,8 wêze:

    0.45*82-19.074=17.8

    Op in fergelykbere manier kinne jo útfine hoefolle paraplu's sille wêze ferkocht mei elke oare moanlikse delslach (x fariabele) dy't jo spesifisearje.

    Regression-analyze-útfier: residuen

    As jo ​​it rûsde en werklike oantal ferkochte paraplu's fergelykje mei de moanlikse delslach fan 82 mm, jo sille sjen dat dizze sifers wat oars binne:

    • Estimere: 17,8 (berekkene hjirboppe)
    • Echte: 15 (rige 2 fan 'e boarnegegevens)

    Wêrom is it ferskil? Om't ûnôfhinklike fariabelen nea perfekte foarsizzers binne fan 'e ôfhinklike fariabelen. En de residualen kinne jo helpe te begripen hoe fier fuort binne de werklike wearden fan 'e foarseine wearden:

    Foarit earste gegevenspunt (de reinfal fan 82 mm), it oerbliuwsel is likernôch -2,8. Dat, wy foegje dit nûmer ta oan 'e foarseine wearde, en krije de werklike wearde: 17.8 - 2.8 = 15.

    Hoe kinne jo in lineêre regressiongrafyk meitsje yn Excel

    As jo ​​fluch visualisearje moatte de relaasje tusken de twa fariabelen, tekenje in lineêre regression chart. Dat is hiel maklik! Hjir is hoe:

    1. Selektearje de twa kolommen mei jo gegevens, ynklusyf kopteksten.
    2. Op de Ynset ljepper, yn de Chats groep , klikje op it ikoan Scatterdiagram , en selektearje de Scatter thumbnail (de earste):

      Dit sil in scatterplot yn jo wurkblêd ynfoegje, dat liket op dit ien:

    3. No moatte wy de minste kwadraten regressionline tekenje. Om it dien te hawwen, klikje jo rjochts op elk punt en kies Trendline taheakje ... út it kontekstmenu.
    4. Selektearje yn it rjochterpaniel de Linear trendlinefoarm en, opsjoneel, kontrolearje Display Equation on Chart om jo regressionformule te krijen:

      Sa't jo miskien merke, is de regression-fergeliking dy't Excel foar ús makke hat itselde as de lineêre regressionformule dy't wy boud hawwe op basis fan de Coefficients-útfier.

    5. Wikselje nei de Folje & Line tab en pas de line oan nei jo smaak. Jo kinne bygelyks in oare linekleur kieze en in fêste line brûke ynstee fan in stippelline (selektearje Solid line yn it fak Dash type ):

    Michael Brown is in tawijd technology-entûsjast mei in passy foar it ferienfâldigjen fan komplekse prosessen mei software-ark. Mei mear as in desennium ûnderfining yn 'e tech-yndustry hat hy syn feardigens yn Microsoft Excel en Outlook, lykas Google Blêden en Docs, oanskerpe. Michael's blog is wijd oan it dielen fan syn kennis en ekspertize mei oaren, en biedt maklik te folgjen tips en tutorials foar it ferbetterjen fan produktiviteit en effisjinsje. Oft jo in betûfte profesjonele of in begjinner binne, Michael's blog biedt weardefolle ynsjoch en praktysk advys om it measte út dizze essensjele software-ark te heljen.