Korrelacioni në Excel: koeficienti, matrica dhe grafiku

  • Shperndaje Kete
Michael Brown

Tutoriali shpjegon bazat e korrelacionit në Excel, tregon se si të llogaritet një koeficient korrelacioni, të ndërtohet një matricë korrelacioni dhe të interpretohen rezultatet.

Një nga llogaritjet më të thjeshta statistikore që mund të bëni në Excel është korrelacioni. Edhe pse e thjeshtë, është shumë e dobishme për të kuptuar marrëdhëniet midis dy ose më shumë variablave. Microsoft Excel ofron të gjitha mjetet e nevojshme për të kryer analizën e korrelacionit, ju vetëm duhet të dini se si t'i përdorni ato.

    Korrelacioni në Excel - bazat

    Korrelacioni është një masë që përshkruan forcën dhe drejtimin e një marrëdhënieje midis dy variablave. Zakonisht përdoret në statistika, ekonomi dhe shkenca sociale për buxhete, plane biznesi dhe të ngjashme.

    Metoda e përdorur për të studiuar se sa ngushtë lidhen variablat quhet analiza korrelacioni .

    Këtu janë disa shembuj të korrelacionit të fortë:

    • Numri i kalorive që hani dhe pesha juaj (korrelacion pozitiv)
    • Temperatura jashtë dhe faturat tuaja të ngrohjes ( korrelacion negativ)

    Dhe këtu shembujt e të dhënave që kanë korrelacion të dobët ose aspak:

    • Emri i maces suaj dhe ushqimi i saj i preferuar
    • Ngjyra e sytë tuaj dhe gjatësia juaj

    Një gjë thelbësore për të kuptuar korrelacionin është se ajo tregon vetëm sa të lidhura ngushtë janë dy variabla. Korrelacioni, megjithatë, nuk nënkuptonnga një interval i caktuar.

  • ROWS dhe COLUMNS - ktheni numrin e rreshtave dhe kolonave në një varg, përkatësisht. Në formulën tonë të korrelacionit, të dyja përdoren me një qëllim - merrni numrin e kolonave për të zhvendosur nga diapazoni fillestar. Dhe kjo arrihet duke përdorur me zgjuarsi referenca absolute dhe relative.
  • Për të kuptuar më mirë logjikën, le të shohim se si formula llogarit koeficientët e theksuar në pamjen e mësipërme.

    Së pari, le të ekzaminoni formulën në B18, e cila gjen korrelacion midis temperaturës mujore (B2:B13) dhe ngrohësve të shitur (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Në funksionin e parë OFFSET, ROWS($1: 1) është transformuar në ROWS($1:3) sepse koordinata e dytë është relative, kështu që ndryshon në bazë të pozicionit relativ të rreshtit ku kopjohet formula (2 rreshta poshtë). Kështu, ROWS() kthen 3, nga i cili zbresim 1 dhe marrim një interval që është 2 kolona në të djathtë të diapazonit të burimit, d.m.th. $D$2:$D$13 (shitjet e ngrohësve).

    e dyta OFFSET nuk e ndryshon diapazonin e specifikuar $B$2:$B$13 (temperaturë) sepse COLUMNS($A:A)-1 kthen zero.

    Si rezultat, formula jonë e gjatë kthehet në një CORREL të thjeshtë( $D$2:$D$13, $B$2:$B$13) dhe kthen saktësisht koeficientin që duam.

    Formula në C18 që llogarit një koeficient korrelacioni për koston e reklamës (C2:C13) dhe shitjet ( D2:D13) punon në mënyrë të ngjashme:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Funksioni i parë OFFSET ështëabsolutisht e njëjtë me atë që përshkruhet më sipër, duke kthyer gamën prej $D$2:$D$13 (shitjet e ngrohësve).

    Në OFFSET-in e dytë, COLUMNS($A:A)-1 ndryshon në COLUMNS($A: B)-1 sepse ne kemi kopjuar kolonën e formulës 1 në të djathtë. Rrjedhimisht, OFFSET merr një gamë që është 1 kolonë në të djathtë të diapazonit të burimit, p.sh. $C$2:$C$13 (kosto reklamimi).

    Si të vizatoni një grafik korrelacioni në Excel

    Kur bëni korrelacion në Excel, mënyra më e mirë për të marrë një paraqitje vizuale të marrëdhënieve midis të dhënave tuaja është të vizatoni një skicë shpërndarjeje me një vijë trendi . Ja se si:

    1. Zgjidhni dy kolona me të dhëna numerike, duke përfshirë titujt e kolonave. Rendi i kolonave është i rëndësishëm: ndryshorja i pavarur duhet të jetë në kolonën e majtë pasi kjo kolonë duhet të vizatohet në boshtin x; ndryshorja varur duhet të jetë në kolonën e djathtë pasi do të vizatohet në boshtin y.
    2. Në skedën Inset , në Chats grupi, klikoni ikonën e grafikut Scatter . Kjo do të futë menjëherë një grafik shpërndarjeje XY në fletën tuaj të punës.
    3. Klikoni me të djathtën në çdo pikë të dhënash në grafik dhe zgjidhni Shto linjën e trendit… nga menyja e kontekstit.

    Për udhëzimet e detajuara hap pas hapi, ju lutemi shihni:

    • Si të krijoni grafikun e shpërndarjes në Excel
    • Si të shtoni linjën e trendit në grafikun Excel

    Për grupin tonë të të dhënave të mostrës, grafikët e korrelacionit duken si tregohen në imazhin më poshtë.Për më tepër, ne shfaqëm vlerën R-katrore, e quajtur gjithashtu Koeficienti i Përcaktimit . Kjo vlerë tregon se sa mirë korrespondon vija e prirjes me të dhënat - sa më afër R2 me 1, aq më mirë është përshtatja.

    Nga vlera R2 e shfaqur në grafikun tuaj të shpërndarjes, mund të llogarisni lehtësisht koeficientin e korrelacionit:

    <0 20>
  • Për saktësi më të mirë, merrni Excel që të tregojë më shumë shifra në vlerën R-katrore sesa në mënyrë të paracaktuar.
  • Klikoni vlerën R2 në grafik, zgjidhni atë duke përdorur miun dhe shtypni Ctrl + C për ta kopjuar atë.
  • Merrni një rrënjë katrore të R2 ose duke përdorur funksionin SQRT ose duke ngritur vlerën e kopjuar R2 në fuqinë 0.5.
  • Për shembull, Vlera R2 në grafikun e dytë është 0.9174339392. Pra, mund të gjeni koeficientin e korrelacionit për Reklamat dhe Ngrohësit e shitur me një nga këto formula:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Siç mund të siguroheni, koeficientët e llogaritur në këtë mënyrë janë plotësisht në përputhje me koeficientët e korrelacionit të gjetur në shembujt e mëparshëm, përveç shenjës :

    Probleme të mundshme me korrelacionin në Excel

    Korrelacioni i momentit të produktit Pearson zbulon vetëm një marrëdhënie lineare midis dy variablave. Do të thotë, variablat tuaja mund të jenë të lidhura fort në një mënyrë tjetër, kurvilineare, dhe ende kanë koeficientin e korrelacionit të barabartë me ose afër zeros.

    Korrelacioni Pearson nuk është në gjendje tëdalloni variablat varur dhe pavarur . Për shembull, kur përdornim funksionin CORREL për të gjetur lidhjen midis temperaturës mesatare mujore dhe numrit të ngrohësve të shitur, morëm një koeficient prej -0.97, që tregon një korrelacion të lartë negativ. Megjithatë, ju mund të kaloni rreth variablave dhe të merrni të njëjtin rezultat. Pra, dikush mund të konkludojë se shitjet më të larta të ngrohësve shkaktojnë uljen e temperaturës, gjë që padyshim nuk ka kuptim. Prandaj, kur ekzekutoni analizën e korrelacionit në Excel, jini të vetëdijshëm për të dhënat që jepni.

    Përveç kësaj, korrelacioni Pearson është shumë i ndjeshëm ndaj outliers . Nëse keni një ose më shumë pika të dhënash që ndryshojnë shumë nga pjesa tjetër e të dhënave, mund të merrni një pamje të shtrembëruar të marrëdhënies midis variablave. Në këtë rast, do të ishte e mençur të përdorni korrelacionin e rangut të Spearman.

    Kjo është se si të bëni korrelacionin në Excel. Për të parë më nga afër shembujt e diskutuar në këtë tutorial, jeni të mirëpritur të shkarkoni mostrën e librit tonë të punës më poshtë. Ju falënderoj për leximin dhe shpresoj t'ju shohim në blogun tonë javën tjetër!

    Praktikoni librin e punës

    Llogaritni korrelacionin në Excel (skedari .xlsx)

    shkakësore. Fakti që ndryshimet në një variabël shoqërohen me ndryshime në variablin tjetër nuk do të thotë se një variabël në të vërtetë shkakton ndryshimin e tjetrit.

    Nëse jeni të interesuar të mësoni kauzalitetin dhe të bëni parashikime, bëni një hap përpara dhe kryeni analizën e regresionit linear.

    Koeficienti i korrelacionit në Excel - interpretimi i korrelacionit

    Masa numerike e shkallës së lidhjes ndërmjet dy ndryshoreve të vazhdueshme quhet koeficienti i korrelacionit ( r).

    Vlera e koeficientit është gjithmonë ndërmjet -1 dhe 1 dhe mat fuqinë dhe drejtimin e marrëdhënies lineare ndërmjet variablave.

    Forca

    Sa më e madhe vlera absolute e koeficientit, aq më e fortë është marrëdhënia:

    • Vlerat ekstreme të -1 dhe 1 tregojnë një marrëdhënie lineare të përsosur kur të gjitha pikat e të dhënave bien në një vijë. Në praktikë, një korrelacion i përsosur, qoftë pozitiv apo negativ, vërehet rrallë.
    • Një koeficient 0 tregon asnjë lidhje lineare midis variablave. Kjo është ajo që ka të ngjarë të merrni me dy grupe numrash të rastësishëm.
    • Vlerat midis 0 dhe +1/-1 përfaqësojnë një shkallë marrëdhëniesh të dobëta, të moderuara dhe të forta. Ndërsa r afrohet me -1 ose 1, forca e marrëdhënies rritet.

    Drejtimi

    Shenja e koeficientit (plus ose minus) tregon drejtimin emarrëdhënie.

    • Koeficientët pozitiv paraqesin korrelacion të drejtpërdrejtë dhe prodhojnë një pjerrësi lart në një grafik - me rritjen e një ndryshore rritet edhe tjetra, dhe anasjelltas.
    • Koeficientët negativë përfaqësojnë korrelacion të kundërt dhe prodhojnë një pjerrësi në rënie në një grafik - ndërsa një variabël rritet, ndryshorja tjetër tenton të ulet.

    Për një kuptim më të mirë, ju lutemi hidhini një sy grafikët e mëposhtëm të korrelacionit:

    • Një koeficient 1 do të thotë një marrëdhënie pozitive perfekte - me rritjen e një variabël, tjetra rritet proporcionalisht.
    • Një koeficient prej -1 do të thotë një marrëdhënie e përsosur negative - ndërsa një variabël rritet, tjetra zvogëlohet proporcionalisht.
    • Një koeficient 0 do të thotë se nuk ka lidhje midis dy variablave - pikat e të dhënave janë të shpërndara në të gjithë grafikun.

    Korrelacioni Pearson

    Në statistika, ato matin disa lloje korrelacioni në varësi të llojit të të dhënave me të cilat po punoni. Në këtë tutorial, ne do të fokusohemi në atë më të zakonshmen.

    Pearson Correlation , emri i plotë është Pearson Product Moment Correlation (PPMC), përdoret për të vlerësoni marrëdhëniet lineare ndërmjet të dhënave kur një ndryshim në një variabël shoqërohet me një ndryshim proporcional në variablin tjetër. Me fjalë të thjeshta, Korrelacioni Pearson i përgjigjet pyetjes: A mund të përfaqësohen të dhënat në alinjë?

    Në statistika, është lloji më i popullarizuar i korrelacionit, dhe nëse keni të bëni me një "koeficient korrelacioni" pa kualifikim të mëtejshëm, ka shumë të ngjarë të jetë Pearson.

    Këtu është formula më e përdorur për të gjetur koeficientin e korrelacionit Pearson, i quajtur gjithashtu Pearson's R :

    Ndonjëherë mund të hasni dy formula të tjera për llogaritjen e koeficientit të korrelacionit të mostrës (r) dhe koeficienti i korrelacionit të popullsisë (ρ).

    Si të bëhet korrelacioni Pearson në Excel

    Llogaritja e koeficientit të korrelacionit Pearson me dorë përfshin mjaft matematikë . Për fat të mirë, Microsoft Excel i ka bërë gjërat shumë të thjeshta. Në varësi të grupit tuaj të të dhënave dhe qëllimit tuaj, ju jeni të lirë të përdorni një nga teknikat e mëposhtme:

    • Gjeni koeficientin e korrelacionit Pearson me funksionin CORREL.
    • Bëni një matricë korrelacioni duke kryerja e analizës së të dhënave.
    • Gjeni koeficientët e shumëfishtë të korrelacionit me një formulë.
    • Partoni një grafik korrelacioni për të marrë paraqitjen vizuale të marrëdhënies së të dhënave.

    Si të llogarisni koeficienti i korrelacionit në Excel

    Për të llogaritur me dorë një koeficient korrelacioni, duhet të përdorni këtë formulë të gjatë. Për të gjetur koeficientin e korrelacionit në Excel, përdorni funksionin CORREL ose PEARSON dhe merrni rezultatin në një pjesë të sekondës.

    Funksioni CORREL Excel

    Funksioni CORREL kthenKoeficienti i korrelacionit Pearson për dy grupe vlerash. Sintaksa e tij është shumë e lehtë dhe e drejtpërdrejtë:

    CORREL(array1, array2)

    Ku:

    • Array1 është diapazoni i parë i vlerave.
    • Array2 është diapazoni i dytë i vlerave.

    Dy vargjet duhet të kenë gjatësi të barabartë.

    Duke supozuar se kemi një grup variablash të pavarur ( x ) në B2:B13 dhe variablat e varur (y) në C2:C13, formula jonë e koeficientit të korrelacionit shkon si më poshtë:

    =CORREL(B2:B13, C2:C13)

    Ose, ne mund të ndërrojmë intervalet dhe ende merrni të njëjtin rezultat:

    =CORREL(C2:C13, B2:B13)

    Sidoqoftë, formula tregon një korrelacion të fortë negativ (rreth -0,97) midis temperaturës mesatare mujore dhe numrit të ngrohësve të shitur:

    3 gjëra që duhet të dini për funksionin CORREL në Excel

    Për të llogaritur me sukses koeficientin e korrelacionit në Excel, ju lutemi mbani parasysh këto 3 fakte të thjeshta:

    • Nëse një ose më shumë qeliza në një grup përmban tekst, vlera logjike ose boshllëqe, qelizat e tilla injorohen; llogariten qelizat me vlera zero.
    • Nëse vargjet e dhëna janë me gjatësi të ndryshme, kthehet një gabim #N/A.
    • Nëse njëri prej vargjeve është bosh ose nëse devijimi standard i vlerat e tyre janë të barabarta me zero, një #DIV/0! ndodh gabimi.

    Funksioni PEARSON Excel

    Funksioni PEARSON në Excel bën të njëjtën gjë - llogarit koeficientin e korrelacionit të momentit të produktit Pearson.

    PEARSON(array1,vargu2)

    Ku:

    • Array1 është një varg vlerash të pavarura.
    • Array2 është një varg vlerash të varura.

    Për shkak se PEARSON dhe CORREL që të dy llogaritin koeficientin e korrelacionit linear Pearson, rezultatet e tyre duhet të bien dakord dhe ato përgjithësisht janë në versionet e fundit të Excel 2007 deri në Excel 2019.

    Në Excel 2003 dhe versionet e mëparshme, megjithatë, funksioni PEARSON mund të shfaqë disa gabime rrumbullakimi. Prandaj, në versionet më të vjetra, rekomandohet përdorimi i CORREL në preferencë ndaj PEARSON.

    Në grupin tonë të të dhënave të mostrës, të dy funksionet shfaqin të njëjtat rezultate:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Si të krijoni një matricë korrelacioni në Excel me analizën e të dhënave

    Kur duhet të testoni ndërlidhjet midis më shumë se dy variablave, ka kuptim të ndërtoni një matricë korrelacioni, e cila ndonjëherë quhet koeficienti i korrelacionit të shumëfishtë .

    Matrica e korrelacionit është një tabelë që tregon koeficientët e korrelacionit midis variablave në kryqëzimin e rreshtave dhe kolonave përkatëse.

    Matrica e korrelacionit në Excel është ndërtuar duke përdorur mjetin Correlation nga shtesa Analysis ToolPak . Kjo shtesë është e disponueshme në të gjitha versionet e Excel 2003 deri në Excel 2019, por nuk është aktivizuar si parazgjedhje. Nëse nuk e keni aktivizuar ende, ju lutemi bëni këtë tani duke ndjekur hapat e përshkruar në Si të aktivizoni Paketën e Analizës së të Dhënave në Excel.

    Meveglat e Analizës së të Dhënave të shtuara në shiritin tuaj të Excel-it, ju jeni gati të kryeni analizën e korrelacionit:

    1. Në këndin e sipërm djathtas të skedës Të dhënat > Analiza grupi, klikoni butonin Analiza e të dhënave .
    2. Në kutinë e dialogut Analiza e të dhënave , zgjidhni Korrelacioni dhe kliko OK.
    3. Në kutinë Correlation , konfiguroni parametrat në këtë mënyrë:
      • Klikoni në kutinë Input Range dhe zgjidhni intervalin me të dhënat tuaja burimore, duke përfshirë titujt e kolonave (B1:D13 në rastin tonë).
      • Në seksionin Grupuar sipas , sigurohuni që kutia radio Kollonat është zgjedhur (e dhënë që të dhënat tuaja burimore janë grupuar në kolona).
      • Zgjidhni kutinë e zgjedhjes Etiketat në rreshtin e parë nëse diapazoni i zgjedhur përmban titujt e kolonave.
      • Zgjidhni opsionin e dëshiruar të daljes. Për të pasur matricën në të njëjtën fletë, zgjidhni Rapsi i daljes dhe specifikoni referencën në qelizën më të majtë në të cilën do të dalë matrica (A15 në këtë shembull).

    Kur të keni mbaruar, klikoni butonin OK :

    Matrica juaj e koeficientëve të korrelacionit ka përfunduar dhe duhet të duket diçka si tregohet në seksionin tjetër.

    Interpretimi i rezultateve të analizës së korrelacionit

    Në matricën tuaj të korrelacionit në Excel, mund të gjeni koeficientët në kryqëzimin e rreshtave dhe kolonave. Nëse koordinatat e kolonës dhe rreshtit janë të njëjta, del vlera 1.

    Në sa më sipërpër shembull, ne jemi të interesuar të dimë korrelacionin midis variablit të varur (numri i ngrohësve të shitur) dhe dy variablave të pavarur (temperatura mesatare mujore dhe kostot e reklamimit). Pra, ne shikojmë vetëm numrat në kryqëzimin e këtyre rreshtave dhe kolonave, të cilat janë theksuar në pamjen e mëposhtme:

    Koeficienti negativ prej -0.97 (i rrumbullakosur në 2 shifra dhjetore) tregon një korrelacion të fortë të anasjelltë midis temperatura mujore dhe shitjet e ngrohësve - ndërsa temperatura rritet, shiten më pak ngrohës.

    Koeficienti pozitiv prej 0.97 (i rrumbullakosur në 2 shifra dhjetore) tregon një lidhje të fortë të drejtpërdrejtë midis buxhetit të reklamave dhe shitjeve - aq më shumë paratë që shpenzoni për reklama, aq më të larta janë shitjet.

    Si të bëni analiza të shumëfishta korrelacioni në Excel me formula

    Ndërtimi i tabelës së korrelacionit me mjetin Analiza e të Dhënave është e lehtë. Megjithatë, ajo matricë është statike, që do të thotë se do t'ju duhet të kryeni përsëri analizën e korrelacionit sa herë që ndryshojnë të dhënat e burimit.

    Lajmi i mirë është se ju mund të ndërtoni lehtësisht një tabelë të ngjashme korrelacioni vetë dhe ajo matricë do të përditësohet automatikisht me çdo ndryshim në vlerat e burimit.

    Për ta bërë këtë, përdorni këtë formulë të përgjithshme:

    CORREL(OFFSET( varg_variable_i parë , 0, ROWS($1:1)-1) , OFFSET( varg_variable_i parë , 0, COLUMNS($A:A)-1))

    Shënim i rëndësishëm! Që formula të funksionojë, duhet të kyçenidiapazoni i parë i variablës duke përdorur referenca absolute të qelizave.

    Në rastin tonë, diapazoni i parë i ndryshores është $B$2:$B$13 (ju lutemi vini re shenjën $ që bllokon referencën) dhe formula jonë e korrelacionit e merr këtë forma:

    =0.9174339392^0.5

    Me formulën gati, le të ndërtojmë një matricë korrelacioni:

    1. Në rreshtin e parë dhe kolonën e parë të matricës, shkruani variablat' etiketat në të njëjtin rend si ato shfaqen në tabelën tuaj burimore (ju lutemi shikoni pamjen e ekranit më poshtë).
    2. Fut formulën e mësipërme në qelizën më të majtë (B16 në rastin tonë).
    3. Zvarrit formulën poshtë dhe djathtas për ta kopjuar atë në aq rreshta dhe kolona sa të nevojitet (3 rreshta dhe 3 kolona në shembullin tonë).

    Si rezultat, ne kemi marrë matricën e mëposhtme me korrelacion të shumëfishtë koeficientët. Ju lutemi vini re se koeficientët e kthyer nga formula jonë janë saktësisht të njëjtë me daljet nga Excel në shembullin e mëparshëm (ato përkatëse janë theksuar):

    Si funksionon kjo formulë

    Siç e dini tashmë, funksioni Excel CORREL kthen koeficientin e korrelacionit për dy grupe variablash që specifikoni. Sfida kryesore është furnizimi i diapazoneve të duhura në qelizat përkatëse të matricës. Për këtë, futni vetëm intervalin e parë të variablës në formulë dhe përdorni funksionet e mëposhtme për të bërë rregullimet e nevojshme:

    • OFFSET - kthen një interval që është një numër i caktuar rreshtash dhe kolonash

    Michael Brown është një entuziast i përkushtuar i teknologjisë me një pasion për thjeshtimin e proceseve komplekse duke përdorur mjete softuerike. Me më shumë se një dekadë përvojë në industrinë e teknologjisë, ai ka përmirësuar aftësitë e tij në Microsoft Excel dhe Outlook, si dhe Google Sheets dhe Docs. Blogu i Michael është i përkushtuar ndaj ndarjes së njohurive dhe ekspertizës së tij me të tjerët, duke ofruar këshilla dhe mësime të thjeshta për t'u ndjekur për të përmirësuar produktivitetin dhe efikasitetin. Pavarësisht nëse jeni një profesionist me përvojë apo fillestar, blogu i Michael ofron njohuri të vlefshme dhe këshilla praktike për të përfituar sa më shumë nga këto mjete softuerike thelbësore.