Cuprins
Tutorialul explică elementele de bază ale analizei de regresie și prezintă câteva moduri diferite de a realiza regresia liniară în Excel.
Imaginați-vă: vi se pune la dispoziție o mulțime de date diferite și vi se cere să preziceți cifrele de vânzări ale companiei dumneavoastră pentru anul viitor. Ați descoperit zeci, poate chiar sute de factori care pot afecta cifrele. Dar cum știți care dintre ei sunt cu adevărat importanți? Rulați analiza de regresie în Excel. Aceasta vă va oferi un răspuns la această întrebare și la multe altele: Ce factoriCât de strâns legați sunt acești factori între ei și cât de siguri puteți fi de predicțiile lor?
Analiza de regresie în Excel - noțiuni de bază
În modelarea statistică, analiza de regresie se utilizează pentru a estima relațiile dintre două sau mai multe variabile:
Variabila dependentă (aka criteriu variabilă) este principalul factor pe care încercați să îl înțelegeți și să îl preziceți.
Variabile independente (aka explicativ variabile, sau predictori ) sunt factorii care ar putea influența variabila dependentă.
Analiza de regresie vă ajută să înțelegeți cum se modifică variația variabilei dependente atunci când variază una dintre variabilele independente și vă permite să determinați matematic care dintre aceste variabile are cu adevărat un impact.
Din punct de vedere tehnic, un model de analiză de regresie se bazează pe suma pătratelor , care este o modalitate matematică de a găsi dispersia punctelor de date. Scopul unui model este de a obține cea mai mică sumă de pătrate posibilă și de a trasa o linie care se apropie cel mai mult de date.
În statistică, se face diferența între o regresie liniară simplă și una multiplă. Regresie liniară simplă modelează relația dintre o variabilă dependentă și o variabilă independentă folosind o funcție liniară. Dacă folosiți două sau mai multe variabile explicative pentru a prezice variabila dependentă, aveți de-a face cu regresie liniară multiplă În cazul în care variabila dependentă este modelată ca o funcție neliniară, deoarece relațiile dintre date nu urmează o linie dreaptă, utilizați regresie neliniară În schimb, acest tutorial se va concentra pe o regresie liniară simplă.
Ca exemplu, să luăm cifrele de vânzări de umbrele pentru ultimele 24 de luni și să aflăm media lunară a precipitațiilor pentru aceeași perioadă. Reprezentați aceste informații pe un grafic, iar linia de regresie va demonstra relația dintre variabila independentă (precipitații) și variabila dependentă (vânzări de umbrele):
Ecuația de regresie liniară
Din punct de vedere matematic, o regresie liniară este definită de această ecuație:
y = bx + a + εUnde:
- x este o variabilă independentă.
- y este o variabilă dependentă.
- a este Y-intercept , care este valoarea medie așteptată a y când toate x variabilele sunt egale cu 0. Pe un grafic de regresie, acesta este punctul în care linia intersectează axa Y.
- b este pantă a unei linii de regresie, care este rata de variație pentru y ca x modificări.
- ε este termenul de eroare aleatorie, care reprezintă diferența dintre valoarea reală a unei variabile dependente și valoarea prezisă a acesteia.
Ecuația de regresie liniară are întotdeauna un termen de eroare, deoarece, în viața reală, predictorii nu sunt niciodată perfect preciși. Cu toate acestea, unele programe, inclusiv Excel, calculează termenul de eroare în spatele scenei. Astfel, în Excel, efectuați regresia liniară folosind funcția cele mai mici pătrate metoda și caută coeficienți a și b astfel încât:
y = bx + aPentru exemplul nostru, ecuația de regresie liniară are următoarea formă:
Umbrele vândute = b * precipitații + a
Există o mână de moduri diferite de a găsi a și b Cele trei metode principale de efectuare a analizei de regresie liniară în Excel sunt:
- Instrument de regresie inclus în Analysis ToolPak
- Diagramă de dispersie cu o linie de tendință
- Formula de regresie liniară
Mai jos veți găsi instrucțiuni detaliate privind utilizarea fiecărei metode.
Cum se face regresia liniară în Excel cu Analysis ToolPak
Acest exemplu arată cum se execută o regresie în Excel utilizând un instrument special inclus în add-in-ul Analysis ToolPak.
Activați add-in-ul Analysis ToolPak
Analysis ToolPak este disponibil în toate versiunile de Excel 365 până la 2003, dar nu este activat în mod implicit. Prin urmare, trebuie să îl activați manual. Iată cum:
- În Excel, faceți clic pe Fișier > Opțiuni .
- În Opțiuni Excel caseta de dialog, selectați Completări din bara laterală din stânga, asigurați-vă că Suplimente Excel este selectat în fereastra Gestionați și faceți clic pe Du-te .
- În Completări caseta de dialog, bifați Pachet de instrumente de analiză , și faceți clic pe OK :
Acest lucru va adăuga Analiza datelor instrumente pentru Date din panglica Excel.
Executați analiza de regresie
În acest exemplu, vom realiza o regresie liniară simplă în Excel. Avem o listă cu precipitațiile medii lunare din ultimele 24 de luni în coloana B, care este variabila noastră independentă (predictor), și numărul de umbrele vândute în coloana C, care este variabila dependentă. Desigur, există mulți alți factori care pot afecta vânzările, dar pentru moment ne concentrăm doar pe aceste două variabile:
Cu Analysis Toolpak adăugat activat, efectuați acești pași pentru a efectua analiza de regresie în Excel:
- Pe Date în fila Analiză grup, faceți clic pe butonul Analiza datelor buton.
- Selectați Regresie și faceți clic pe OK .
- În Regresie configurați următoarele setări:
- Selectați Intervalul Y de intrare , care este variabila dependentă În cazul nostru, este vorba de vânzări de umbrele (C1:C25).
- Selectați Intervalul de intrare X , adică a ta variabilă independentă În acest exemplu, este vorba de precipitațiile medii lunare (B1:B25).
Dacă construiți un model de regresie multiplă, selectați două sau mai multe coloane adiacente cu variabile independente diferite.
- Verificați Caseta de etichete dacă există anteturi în partea de sus a intervalelor X și Y.
- Alegeți-vă preferințele Opțiunea de ieșire, o nouă foaie de lucru în cazul nostru.
- În mod opțional, selectați Reziduuri pentru a obține diferența dintre valorile previzionate și cele reale.
- Faceți clic pe OK și observați rezultatul analizei de regresie creat de Excel.
Interpretarea rezultatelor analizei de regresie
După cum tocmai ați văzut, rularea unei regresii în Excel este ușoară, deoarece toate calculele sunt efectuate în mod automat. Interpretarea rezultatelor este un pic mai complicată, deoarece trebuie să știți ce se află în spatele fiecărui număr. Mai jos veți găsi o defalcare a 4 părți majore ale rezultatului analizei de regresie.
Rezultatul analizei de regresie: Rezultatul sumar
Această parte vă spune cât de bine se potrivește ecuația de regresie liniară calculată cu datele sursă.
Iată ce înseamnă fiecare informație:
Multiple R Este C Coeficient de corelație care măsoară intensitatea unei relații liniare între două variabile. Coeficientul de corelație poate avea orice valoare între -1 și 1, iar valoarea sa absolută indică intensitatea relației. Cu cât valoarea absolută este mai mare, cu atât relația este mai puternică:
- 1 înseamnă o relație pozitivă puternică
- -1 înseamnă o relație puternic negativă
- 0 înseamnă că nu există nicio relație
R pătrat . este Coeficientul de determinare , care este utilizat ca indicator al bunei potriviri. Acesta arată câte puncte se încadrează pe linia de regresie. Valoarea R2 se calculează din suma totală a pătratelor, mai exact, este suma abaterilor pătratice ale datelor originale față de medie.
În exemplul nostru, R2 este de 0,91 (rotunjit la 2 cifre), ceea ce este destul de bun. Aceasta înseamnă că 91% din valorile noastre se potrivesc modelului de analiză de regresie. Cu alte cuvinte, 91% din variabilele dependente (valorile y) sunt explicate de variabilele independente (valorile x). În general, un R pătrat de 95% sau mai mult este considerat o potrivire bună.
R pătrat ajustat R pătrat . este R pătrat ajustat pentru numărul de variabile independente din model. Veți dori să utilizați această valoare în loc de R pătrat pentru analiza de regresie multiplă.
Eroare standard Este o altă măsură a bonității de potrivire care arată precizia analizei de regresie - cu cât numărul este mai mic, cu atât mai sigur puteți fi de ecuația de regresie. În timp ce R2 reprezintă procentul din variația variabilelor dependente care este explicat de model, eroarea standard este o măsură absolută care arată distanța medie la care punctele de date se află față de modelul de regresie.linie.
Observații Este pur și simplu numărul de observații din modelul dumneavoastră.
Rezultatul analizei de regresie: ANOVA
A doua parte a rezultatului este Analiza varianței (ANOVA):
Practic, aceasta împarte suma pătratelor în componente individuale care oferă informații despre nivelurile de variabilitate din cadrul modelului de regresie:
- df este numărul gradelor de libertate asociate surselor de varianță.
- SS este suma pătratelor. Cu cât SS reziduală este mai mică în comparație cu SS totală, cu atât modelul se potrivește mai bine datelor.
- MS este pătratul mediu.
- F este statistica F, sau testul F pentru ipoteza nulă. Se utilizează pentru a testa semnificația generală a modelului.
- Semnificație F este valoarea P a lui F.
Partea ANOVA este rareori utilizată pentru o simplă analiză de regresie liniară în Excel, dar ar trebui să vă uitați cu atenție la ultima componentă. Partea Semnificație F oferă o idee despre cât de fiabile (semnificative din punct de vedere statistic) sunt rezultatele dvs. Dacă F de semnificație este mai mică de 0,05 (5%), modelul dvs. este OK. Dacă este mai mare de 0,05, probabil că ar fi mai bine să alegeți o altă variabilă independentă.
Rezultatul analizei de regresie: coeficienți
Această secțiune oferă informații specifice despre componentele analizei dumneavoastră:
Cea mai utilă componentă din această secțiune este Coeficienți Vă permite să construiți o ecuație de regresie liniară în Excel:
y = bx + aPentru setul nostru de date, unde y este numărul de umbrele vândute și x este o medie lunară a precipitațiilor, formula noastră de regresie liniară este următoarea:
Y = Coeficientul de precipitații * x + Intercepția
Echipat cu valorile a și b rotunjite la trei zecimale, se transformă în:
Y=0.45*x-19.074
De exemplu, în cazul în care precipitațiile medii lunare sunt de 82 mm, vânzările de umbrele ar fi de aproximativ 17,8:
0.45*82-19.074=17.8
În mod similar, puteți afla câte umbrele vor fi vândute în funcție de orice altă ploaie lunară (variabila x) pe care o specificați.
Rezultatul analizei de regresie: reziduuri
Dacă comparați numărul estimat și numărul real de umbrele vândute, corespunzător unei precipitații lunare de 82 mm, veți vedea că aceste cifre sunt ușor diferite:
- Estimat: 17,8 (calculat mai sus)
- Real: 15 (rândul 2 din datele sursă)
Pentru că variabilele independente nu sunt niciodată predictori perfecți ai variabilelor dependente, iar reziduurile vă pot ajuta să înțelegeți cât de departe sunt valorile reale de cele prezise:
Pentru primul punct de date (precipitații de 82 mm), reziduul este de aproximativ -2,8. Deci, adăugăm acest număr la valoarea prezisă și obținem valoarea reală: 17,8 - 2,8 = 15.
Cum se face un grafic de regresie liniară în Excel
Dacă aveți nevoie să vizualizați rapid relația dintre cele două variabile, desenați un grafic de regresie liniară. Este foarte ușor! Iată cum:
- Selectați cele două coloane cu datele dumneavoastră, inclusiv antetele.
- Pe Inserție în fila Discuții grup, faceți clic pe butonul Diagramă de dispersie și selectați pictograma Dispersie miniatură (prima):
Acest lucru va insera un grafic de dispersie în foaia de lucru, care va semăna cu acesta:
- Acum, trebuie să desenăm linia de regresie a celor mai mici pătrate. Pentru a face acest lucru, faceți clic dreapta pe orice punct și alegeți Adăugați Trendline... din meniul contextual.
- În panoul din dreapta, selectați Linear forma liniei de trend și, opțional, verificarea Afișarea ecuației pe diagramă pentru a obține formula de regresie:
După cum ați observat, ecuația de regresie pe care Excel a creat-o pentru noi este aceeași cu formula de regresie liniară pe care am construit-o pe baza rezultatului Coeficienți.
- Comutați la Umpleți & Linie și personalizați linia după bunul dumneavoastră plac. De exemplu, puteți alege o culoare diferită a liniei și puteți utiliza o linie continuă în loc de o linie punctată (selectați Solid line (Linie continuă) în fereastra Tipul de bord cutie):
În acest moment, graficul dvs. arată deja ca un grafic de regresie decent:
Cu toate acestea, este posibil să doriți să mai faceți câteva îmbunătățiri:
- Trageți ecuația oriunde considerați necesar.
- Adăugați titluri de axe ( Elemente de diagramă buton> Titluri Axis ).
- Dacă punctele de date încep în mijlocul axei orizontale și/sau verticale, ca în acest exemplu, este posibil să doriți să eliminați spațiul alb excesiv. Următorul sfat explică cum să faceți acest lucru: Scalați axele graficului pentru a reduce spațiul alb.
Și iată cum arată graficul nostru de regresie îmbunătățit:
Notă importantă! În graficul de regresie, variabila independentă ar trebui să fie întotdeauna pe axa X și variabila dependentă pe axa Y. Dacă graficul dvs. este trasat în ordine inversă, schimbați coloanele în foaia de calcul și apoi trasați din nou graficul. Dacă nu vi se permite să rearanjați datele sursă, atunci puteți schimba axele X și Y direct într-un grafic.
Cum se face regresia în Excel folosind formule
Microsoft Excel dispune de câteva funcții statistice care vă pot ajuta să efectuați analize de regresie liniară, cum ar fi LINEST, SLOPE, INTERCEPT și CORREL.
Funcția LINEST utilizează metoda de regresie prin metoda celor mai mici pătrate pentru a calcula o linie dreaptă care explică cel mai bine relația dintre variabilele dvs. și returnează o matrice care descrie acea linie. Puteți găsi explicația detaliată a sintaxei funcției în acest tutorial. Pentru moment, să facem doar o formulă pentru setul nostru de date de probă:
=LINEST(C2:C25, B2:B25)
Deoarece funcția LINEST returnează o matrice de valori, trebuie să o introduceți ca o formulă de matrice. Selectați două celule adiacente din același rând, E2:F2 în cazul nostru, introduceți formula și apăsați Ctrl + Shift + Enter pentru a o completa.
Formula returnează valoarea b (E1) și coeficientul a constantă (F1) pentru ecuația de regresie liniară deja cunoscută:
y = bx + a
Dacă evitați să folosiți formule de matrice în foile de calcul, puteți calcula a și b în mod individual cu formule obișnuite:
Obțineți intercepția Y (a):
=INTERCEPT(C2:C25, B2:B25)
Se obține panta (b):
= PANTA(C2:C25, B2:B25)
În plus, puteți găsi coeficientul de corelație ( Multiple R în rezultatul sumar al analizei de regresie) care indică cât de puternic sunt legate între ele cele două variabile:
=CORREL(B2:B25,C2:C25)
Următoarea captură de ecran arată toate aceste formule de regresie Excel în acțiune:
Sfat: Dacă doriți să obțineți statistici suplimentare pentru analiza de regresie, utilizați funcția LINEST cu ajutorul funcției s tatuaje setat la TRUE, așa cum se arată în acest exemplu.
Așa se face regresia liniară în Excel. Acestea fiind spuse, vă rugăm să rețineți că Microsoft Excel nu este un program statistic. Dacă aveți nevoie să efectuați analize de regresie la nivel profesional, este posibil să doriți să folosiți un software specific, cum ar fi XLSTAT, RegressIt etc.
Pentru a vedea mai îndeaproape formulele noastre de regresie liniară și alte tehnici discutate în acest tutorial, vă invităm să descărcați exemplul nostru de caiet de lucru de mai jos. Vă mulțumim pentru lectură!
Caiet de practică
Analiza de regresie în Excel - exemple (fișier .xlsx)