Բովանդակություն
Ուսուցումը բացատրում է ռեգրեսիոն վերլուծության հիմունքները և ցույց է տալիս Excel-ում գծային ռեգրեսիա կատարելու մի քանի տարբեր եղանակներ:
Պատկերացրեք սա. ձեզ տրամադրվում են բազմաթիվ տարբեր տվյալներ և Խնդրվում է գուշակել հաջորդ տարվա վաճառքի թվերը ձեր ընկերության համար: Դուք հայտնաբերել եք տասնյակ, գուցե նույնիսկ հարյուրավոր գործոններ, որոնք կարող են ազդել թվերի վրա: Բայց ինչպե՞ս գիտեք, թե որոնք են իսկապես կարևոր: Գործարկեք ռեգրեսիոն վերլուծություն Excel-ում: Այն ձեզ պատասխան կտա այս և շատ այլ հարցերի. ո՞ր գործոններն են կարևոր և որոնք կարելի է անտեսել: Որքա՞ն սերտորեն կապված են այս գործոնները միմյանց հետ: Իսկ որքանո՞վ կարող եք վստահ լինել կանխատեսումների վերաբերյալ:
Regression վերլուծությունը Excel-ում - հիմունքները
Վիճակագրական մոդելավորման մեջ ռեգեսիոն վերլուծությունը օգտագործվում է գնահատել հարաբերությունները երկու կամ ավելի փոփոխականների միջև.
Կախյալ փոփոխականը (նույնը` չափանիշ փոփոխական) այն հիմնական գործոնն է, որը փորձում եք հասկանալ և կանխատեսել:
Անկախ փոփոխականները (նաև բացատրական փոփոխականներ, կամ կանխատեսողներ ) այն գործոններն են, որոնք կարող են ազդել կախված փոփոխականի վրա:
Ռեգրեսիոն վերլուծությունը օգնում է ձեզ հասկանալ, թե ինչպես է փոխվում կախված փոփոխականը, երբ անկախ փոփոխականներից մեկը տատանվում է, և թույլ է տալիս մաթեմատիկորեն որոշել, թե այդ փոփոխականներից որն է իրականում ազդում:
Տեխնիկապես, ռեգրեսիոն վերլուծության մոդելը հիմնված է գումարների վրա:
Այս պահին ձեր գծապատկերն արդեն նման է արժանապատիվ ռեգրեսիայի գրաֆիկի.
Եվ այսպիսի տեսք ունի մեր բարելավված ռեգրեսիայի գրաֆիկը.
Կարևոր նշում: Ռեգրեսիայի գրաֆիկում անկախ փոփոխականը միշտ պետք է լինի X առանցքի վրա, իսկ կախյալ փոփոխականը՝ Y առանցքի վրա։ Եթե ձեր գրաֆիկը գծված է հակառակ հերթականությամբ, փոխեք սյունակները ձեր աշխատաթերթում և այնուհետև նորից գծեք գծապատկերը: Եթե ձեզ չի թույլատրվում վերադասավորել աղբյուրի տվյալները, ապա կարող եք փոխել X և Y առանցքները ուղղակիորեն գծապատկերում:
Ինչպես կատարել ռեգրեսիա Excel-ում՝ օգտագործելով բանաձևերը
Microsoft Excel-ն ունի մի քանի վիճակագրական գործառույթներ, որոնք կարող են օգնել ձեզ կատարել գծային ռեգրեսիոն վերլուծություն, ինչպիսիք են LINEST, SLOPE, INTERCEPT և CORREL:
LINEST ֆունկցիան օգտագործում է նվազագույն քառակուսիների ռեգրեսիայի մեթոդը ուղիղը հաշվարկելու համար: տող, որը լավագույնս բացատրում է ձեր փոփոխականների միջև կապը և վերադարձնում է այդ գիծը նկարագրող զանգված: Դուք կարող եք գտնել մանրամասն բացատրությունըֆունկցիայի շարահյուսությունը այս ձեռնարկում: Առայժմ, եկեք պարզապես բանաձև կազմենք մեր նմուշի տվյալների բազայի համար.
=LINEST(C2:C25, B2:B25)
Քանի որ LINEST ֆունկցիան վերադարձնում է արժեքների զանգված, դուք պետք է մուտքագրեք այն որպես զանգվածի բանաձև: Ընտրեք երկու հարակից բջիջներ նույն տողում, մեր դեպքում E2:F2, մուտքագրեք բանաձևը և սեղմեք Ctrl + Shift + Enter այն ավարտելու համար:
Բանաձևը վերադարձնում է b գործակիցը ( E1) և a հաստատունը (F1) արդեն ծանոթ գծային ռեգրեսիայի հավասարման համար.
y = bx + a
Եթե խուսափում եք զանգվածի բանաձևեր օգտագործել ձեր աշխատաթերթերում, կարող եք հաշվարկել a և b առանձին-առանձին կանոնավոր բանաձևերով.
Ստացեք Y-հատվածը (a):
=INTERCEPT(C2:C25, B2:B25)
Ստացեք թեքությունը (բ):
=SLOPE(C2:C25, B2:B25)
Բացի այդ, դուք կարող եք գտնել հարաբերակցության գործակիցը ( Բազմապատիկ R ռեգրեսիոն վերլուծության ամփոփ ելքում), որը ցույց է տալիս, թե ինչպես Երկու փոփոխականները խիստ կապված են միմյանց հետ.
=CORREL(B2:B25,C2:C25)
Հետևյալ սքրինշոթը ցույց է տալիս Excel-ի ռեգրեսիայի այս բոլոր բանաձևերը գործողության մեջ.
Հուշում. Եթե ցանկանում եք լրացուցիչ վիճակագրություն ստանալ ձեր ռեգրեսիոն վերլուծության համար, օգտագործեք LINEST ֆունկցիան՝ s tats պարամետրով սահմանված է TRUE, ինչպես ցույց է տրված այս օրինակում:
Այդպես եք անում գծային ռեգրեսիան: Excel-ում։ Ասված է, խնդրում ենք նկատի ունենալ, որ Microsoft Excel-ը վիճակագրական ծրագիր չէ: Եթե Ձեզ անհրաժեշտ է ռեգրեսիոն վերլուծություն կատարել մասնագիտական մակարդակով, կարող եք օգտագործել նպատակայինծրագրակազմ, ինչպիսին է XLSTAT, RegressIt և այլն:
Այս ձեռնարկում քննարկված մեր գծային ռեգրեսիայի բանաձևերին և այլ մեթոդներին ավելի մոտիկից ծանոթանալու համար կարող եք ներբեռնել ստորև բերված մեր աշխատանքային գրքույկի նմուշը: Շնորհակալություն կարդալու համար:
Պրակտիկ աշխատանքային գրքույկ
Regression Analysis in Excel - օրինակներ (.xlsx ֆայլ)
քառակուսիներ, որը տվյալների կետերի դիսպերսիան գտնելու մաթեմատիկական միջոց է։ Մոդելի նպատակն է ստանալ քառակուսիների հնարավոր ամենափոքր գումարը և գծել գիծ, որն ամենամոտն է տվյալներին:Վիճակագրության մեջ նրանք տարբերում են պարզ և բազմակի գծային ռեգրեսիա: Պարզ գծային ռեգրեսիա: մոդելավորում է կախված փոփոխականի և մեկ անկախ փոփոխականի միջև կապը՝ օգտագործելով գծային ֆունկցիա: Եթե դուք օգտագործում եք երկու կամ ավելի բացատրական փոփոխականներ կախյալ փոփոխականը կանխատեսելու համար, դուք գործ ունեք բազմակի գծային ռեգրեսիայի հետ : Եթե կախյալ փոփոխականը մոդելավորվում է որպես ոչ գծային ֆունկցիա, քանի որ տվյալների հարաբերությունները չեն հետևում ուղիղ գծի, փոխարենը օգտագործեք ոչ գծային ռեգրեսիա : Այս ձեռնարկի ուշադրության կենտրոնում կլինի պարզ գծային ռեգրեսիան:
Որպես օրինակ՝ վերցնենք հովանոցների վաճառքի թվերը վերջին 24 ամիսների համար և պարզենք նույն ժամանակահատվածի միջին ամսական տեղումները: Այս տեղեկատվությունը գծեք գծապատկերի վրա, և ռեգրեսիայի գիծը ցույց կտա անկախ փոփոխականի (անձրևի տեղումներ) և կախված փոփոխականի (հովանոցի վաճառք) կապը. սահմանվում է այս հավասարմամբ.
y = bx + a + εՈրտեղ:
- x անկախ փոփոխական է:
- y -ը կախված փոփոխական է:
- a Y-ընդհատումն է , որը ակնկալվող միջին արժեքն է: y երբ բոլոր x փոփոխականները հավասար են 0-ի: Ռեգրեսիոն գրաֆիկի վրա դա այն կետն է, որտեղ ուղիղը հատում է Y առանցքը:
- b-ը է: ռեգրեսիոն գծի թեքություն , որը y -ի փոփոխության արագությունն է, քանի որ x փոխվում է:
- ε պատահական սխալն է: տերմին, որը կախված փոփոխականի իրական արժեքի և դրա կանխատեսված արժեքի միջև տարբերությունն է:
Գծային ռեգրեսիոն հավասարումը միշտ ունի սխալ տերմին, քանի որ իրական կյանքում կանխատեսիչները երբեք կատարյալ ճշգրիտ չեն: Այնուամենայնիվ, որոշ ծրագրեր, ներառյալ Excel-ը, սխալի տերմինի հաշվարկն անում են կուլիսներում: Այսպիսով, Excel-ում դուք կատարում եք գծային ռեգրեսիա՝ օգտագործելով նվազագույն քառակուսիների մեթոդը և որոնում եք a և b գործակիցները, որպեսզի.
y = bx + a <: 0>Մեր օրինակի համար գծային ռեգրեսիայի հավասարումը ստանում է հետևյալ ձևը. Umbrellas sold = b * rainfall + a
Կան մի քանի տարբեր եղանակներ գտնելու a և b . Excel-ում գծային ռեգրեսիոն վերլուծություն կատարելու երեք հիմնական մեթոդներն են.
- Regression գործիքը ներառված է Analysis ToolPak-ի հետ
- Ցրման գծապատկերը միտումների գծով
- Գծային ռեգրեսիայի բանաձեւը
Ստորև դուք կգտնեք յուրաքանչյուր մեթոդի օգտագործման մանրամասն հրահանգներ:
Ինչպես կատարել գծային ռեգրեսիա Excel-ում Analysis ToolPak-ով
Այս օրինակը ցույց է տալիս, թե ինչպես կատարել ռեգրեսիա Excel-ում օգտագործելով հատուկ գործիք, որը ներառված է Analysis ToolPak հավելումում:
Միացնել Analysis ToolPak հավելումը-in
Analysis ToolPak-ը հասանելի է Excel 365-ից մինչև 2003 թվականների բոլոր տարբերակներում, սակայն լռելյայն միացված չէ: Այսպիսով, դուք պետք է միացնեք այն ձեռքով: Ահա թե ինչպես.
- Ձեր Excel-ում սեղմեք Ֆայլ > Ընտրանքներ ։
- Excel Options երկխոսության վանդակում, ձախ կողագոտում ընտրեք Ավելացումներ , համոզվեք, որ Excel հավելումներ ընտրված է Կառավարում վանդակում և սեղմեք Գնալ .
- Ավելացումներ երկխոսության վանդակում, նշեք Վերլուծական գործիքների փաթեթը և սեղմեք Լավ .
Սա կավելացնի Տվյալների վերլուծություն գործիքները ձեր Excel ժապավենի Տվյալների ներդիրում:
Գործարկել ռեգրեսիոն վերլուծություն
Մտ Այս օրինակում մենք պատրաստվում ենք պարզ գծային ռեգրեսիա կատարել Excel-ում: Այն, ինչ մենք ունենք, B սյունակում վերջին 24 ամիսների միջին ամսական տեղումների ցանկն է, որը մեր անկախ փոփոխականն է (կանխատեսող), և C սյունակում վաճառված հովանոցների քանակը, որը կախված փոփոխականն է: Իհարկե, կան բազմաթիվ այլ գործոններ, որոնք կարող են ազդել վաճառքի վրա, բայց առայժմ մենք կենտրոնանում ենք միայն այս երկու փոփոխականների վրա.
- Տվյալներ ներդիրում, Վերլուծություն խմբում սեղմեք Տվյալների վերլուծություն կոճակը:
- Ընտրեք Regression և սեղմեք OK :
- Regression երկխոսության վանդակում կազմաձևեք հետևյալ կարգավորումները.
- Ընտրեք ՄուտքըY Range , որը ձեր կախյալ փոփոխականն է : Մեր դեպքում դա հովանոցի վաճառքն է (C1:C25):
- Ընտրեք Input X Range , այսինքն ձեր անկախ փոփոխականը : Այս օրինակում դա միջին ամսական տեղումներն են (B1:B25):
Եթե դուք կառուցում եք բազմակի ռեգրեսիայի մոդել, ընտրեք երկու կամ ավելի հարակից սյունակներ տարբեր անկախ փոփոխականներով:
- Ստուգեք Պիտակներ վանդակը , եթե ձեր X և Y տիրույթների վերևում կան վերնագրեր:
- Ընտրեք ձեր նախընտրած Ելք տարբերակը, նոր աշխատաթերթը մեր էջում: դեպք:
- Ըստ ցանկության, ընտրեք Մնացորդներ վանդակը` կանխատեսված և իրական արժեքների տարբերությունը տեսնելու համար:
- Սեղմեք OK և դիտեք Excel-ի կողմից ստեղծված ռեգրեսիոն վերլուծության արդյունքը:
Մեկնաբանեք ռեգրեսիոն վերլուծության արդյունքը
Ինչպես նոր տեսաք, Excel-ում ռեգրեսիա գործարկելը հեշտ է, քանի որ բոլոր հաշվարկները կատարվում են ավտոմատ կերպով: Արդյունքների մեկնաբանումը մի փոքր ավելի բարդ է, քանի որ դուք պետք է իմանաք, թե ինչ է թաքնված յուրաքանչյուր թվի հետևում: Ստորև դուք կգտնեք ռեգրեսիոն վերլուծության արդյունքի 4 հիմնական մասերի բաշխումը:
Ռեգրեսիոն վերլուծության արդյունք. Ամփոփ արդյունք
Այս մասը ցույց է տալիս, թե որքանով է հաշվարկված գծային ռեգրեսիայի հավասարումը համապատասխանում ձեր աղբյուրի տվյալներին:
Ահա, թե ինչ է նշանակում յուրաքանչյուր տեղեկություն.
Բազմակի R : C հարաբերության գործակիցն է , որը չափում է ուժըգծային հարաբերություն երկու փոփոխականների միջև: Հարաբերակցության գործակիցը կարող է լինել ցանկացած արժեք -1-ի և 1-ի միջև, իսկ դրա բացարձակ արժեքը ցույց է տալիս հարաբերությունների ուժը: Որքան մեծ է բացարձակ արժեքը, այնքան ավելի ուժեղ է հարաբերությունը:
- 1 նշանակում է ուժեղ դրական հարաբերություն
- -1 նշանակում է ուժեղ բացասական հարաբերություն
- 0 նշանակում է, որ հարաբերություն չկա բոլոր
R հրապարակ . Դա Որոշման գործակիցն է , որն օգտագործվում է որպես համապատասխանության լավության ցուցանիշ։ Այն ցույց է տալիս, թե քանի միավոր է ընկնում ռեգրեսիոն գծի վրա: R2 արժեքը հաշվարկվում է քառակուսիների ընդհանուր գումարից, ավելի ճիշտ՝ սկզբնական տվյալների քառակուսի շեղումների գումարն է միջինից:
Մեր օրինակում R2-ը 0,91 է (կլորացվում է մինչև 2 նիշ): , որը բավականին լավ է: Դա նշանակում է, որ մեր արժեքների 91%-ը համապատասխանում է ռեգրեսիոն վերլուծության մոդելին: Այլ կերպ ասած, կախված փոփոխականների 91%-ը (y-արժեքները) բացատրվում են անկախ փոփոխականներով (x-արժեքներով): Ընդհանուր առմամբ, R քառակուսի 95% կամ ավելին համարվում է լավ տեղավորել:
Ճշգրտված R քառակուսի : Դա R քառակուսի է, որը ճշգրտվում է մոդելի անկախ փոփոխականների թվի համար: Դուք կցանկանաք օգտագործել այս արժեքը R քառակուսի -ի փոխարեն բազմակի ռեգրեսիոն վերլուծության համար:
Ստանդարտ սխալ : Դա հարմարության ևս մեկ չափանիշ է, որը ցույց է տալիս ձեր ռեգրեսիոն վերլուծության ճշգրտությունը. որքան փոքր է թիվը, այնքան ավելի վստահ կարող եք լինել:ձեր ռեգրեսիայի հավասարումը: Մինչ R2-ը ներկայացնում է կախված փոփոխականների շեղումների տոկոսը, որը բացատրվում է մոդելով, ստանդարտ սխալը բացարձակ չափում է, որը ցույց է տալիս միջին հեռավորությունը, որով տվյալների կետերը ընկնում են ռեգրեսիայի գծից:
Դիտարկումներ . Դա պարզապես ձեր մոդելի դիտարկումների քանակն է:
Ռեգրեսիոն վերլուծության արդյունքը. ANOVA
Արդյունքի երկրորդ մասը տատանումների վերլուծությունն է (ANOVA).
Հիմնականում, այն քառակուսիների գումարը բաժանում է առանձին բաղադրիչների, որոնք տեղեկատվություն են տալիս ձեր ռեգրեսիոն մոդելի փոփոխականության մակարդակների մասին.
- df աղբյուրների հետ կապված ազատության աստիճանների թիվն է։ տարբերության:
- SS քառակուսիների գումարն է: Որքան փոքր է Residual SS-ը, համեմատած Total SS-ի հետ, այնքան ավելի լավ է ձեր մոդելը համապատասխանում տվյալներին:
- MS -ը միջին քառակուսին է:
- F F վիճակագրությունն է կամ F-թեստը զրոյական վարկածի համար: Այն օգտագործվում է մոդելի ընդհանուր նշանակությունը ստուգելու համար:
- Նշանակությունը F F-ի P արժեքն է:
ANOVA մասը հազվադեպ է օգտագործվում պարզ գծային ռեգրեսիայի վերլուծություն Excel-ում, բայց դուք անպայման պետք է ուշադիր նայեք վերջին բաղադրիչին: Significance F արժեքը պատկերացում է տալիս, թե որքան հուսալի (վիճակագրորեն նշանակալի) են ձեր արդյունքները: Եթե կարևորությունը F-ը 0,05-ից փոքր է (5%), ձեր մոդելը նորմալ է: Եթե այն ավելի մեծ է, քան 0,05, ապա դուք պետք էհավանաբար ավելի լավ է ընտրել մեկ այլ անկախ փոփոխական:
Ռեգրեսիոն վերլուծության արդյունքը. գործակիցներ
Այս բաժինը տրամադրում է կոնկրետ տեղեկատվություն ձեր վերլուծության բաղադրիչների մասին.
Այս բաժնի ամենաօգտակար բաղադրիչն է. Գործակիցներ : Այն հնարավորություն է տալիս Excel-ում կառուցել գծային ռեգրեսիայի հավասարում.
y = bx + aՄեր տվյալների հավաքածուի համար, որտեղ y -ը վաճառված հովանոցների թիվն է, իսկ x-ը միջին ամսական տեղումներն է, մեր գծային ռեգրեսիայի բանաձևը հետևյալն է.
Y = Rainfall Coefficient * x + Intercept
Հագեցված է a և b արժեքներով, որոնք կլորացված են երեք տասնորդական տեղերի, այն վերածվում է.
Y=0.45*x-19.074
Օրինակ, եթե միջին ամսական տեղումները հավասար են 82 մմ, ապա հովանոցների վաճառքը կկազմի մոտավորապես 17,8:
0.45*82-19.074=17.8
Նման ձևով դուք կարող եք պարզել, թե քանի հովանոց է լինելու: վաճառվում է ձեր նշած ցանկացած այլ ամսական տեղումների հետ (x փոփոխական):
Ռեգրեսիոն վերլուծության արդյունքը. կտեսնեք, որ այս թվերը փոքր-ինչ տարբեր են՝
- Գնահատված՝ 17.8 (հաշվարկված է վերևում)
- Փաստացի՝ 15 (աղբյուրի տվյալների 2-րդ տող)
Ինչու՞ է տարբերությունը: Քանի որ անկախ փոփոխականները երբեք կախյալ փոփոխականների կատարյալ կանխատեսողներ չեն: Եվ մնացորդները կարող են օգնել ձեզ հասկանալ, թե որքան հեռու են իրական արժեքները կանխատեսված արժեքներից.
Forտվյալների առաջին կետը (անձրևը 82 մմ), մնացորդը մոտավորապես -2,8 է: Այսպիսով, մենք ավելացնում ենք այս թիվը կանխատեսված արժեքին և ստանում ենք իրական արժեքը՝ 17,8 - 2,8 = 15:
Ինչպես կատարել գծային ռեգրեսիայի գրաֆիկ Excel-ում
Եթե Ձեզ անհրաժեշտ է արագ պատկերացնել երկու փոփոխականների միջև փոխհարաբերությունները, նկարեք գծային ռեգրեսիոն աղյուսակ: Դա շատ հեշտ է: Ահա թե ինչպես.
- Ընտրեք երկու սյունակները ձեր տվյալներով, ներառյալ վերնագրերը:
- Inset ներդիրում, Զրույցներ խմբում: , սեղմեք Scatter chart պատկերակը և ընտրեք Scatter մանրապատկերը (առաջինը). մեկը.
Ինչպես կարող եք նկատել, Excel-ի կողմից մեզ համար ստեղծված ռեգրեսիայի հավասարումը նույնն է, ինչ գծային ռեգրեսիայի բանաձևը, որը մենք ստեղծել ենք Գործակիցների արդյունքի հիման վրա: