Kaugnayan sa Excel: koepisyent, matrix at graph

  • Ibahagi Ito
Michael Brown

Ipinapaliwanag ng tutorial ang mga pangunahing kaalaman ng ugnayan sa Excel, ipinapakita kung paano kalkulahin ang koepisyent ng ugnayan, bumuo ng matrix ng ugnayan at bigyang-kahulugan ang mga resulta.

Isa sa pinakasimpleng istatistikal na kalkulasyon na maaari mong gawin sa Excel ay ang ugnayan. Bagama't simple, ito ay lubhang kapaki-pakinabang sa pag-unawa sa mga relasyon sa pagitan ng dalawa o higit pang mga variable. Ibinibigay ng Microsoft Excel ang lahat ng kinakailangang tool upang magpatakbo ng pagsusuri ng ugnayan, kailangan mo lang malaman kung paano gamitin ang mga ito.

    Pag-uugnay sa Excel - ang mga pangunahing kaalaman

    Pagkakaugnay Ang ay isang sukat na naglalarawan sa lakas at direksyon ng isang relasyon sa pagitan ng dalawang variable. Karaniwan itong ginagamit sa mga istatistika, ekonomiya at agham panlipunan para sa mga badyet, plano sa negosyo at mga katulad nito.

    Ang pamamaraang ginamit upang pag-aralan kung gaano kalapit ang pagkakaugnay ng mga variable ay tinatawag na pagsusuri ng ugnayan .

    Narito ang ilang halimbawa ng malakas na ugnayan:

    • Ang bilang ng mga calorie na kinakain mo at ang iyong timbang (positibong ugnayan)
    • Ang temperatura sa labas at ang iyong mga bayarin sa pag-init ( negatibong ugnayan)

    At narito ang mga halimbawa ng data na mahina o walang ugnayan:

    • Ang pangalan ng iyong pusa at ang kanilang paboritong pagkain
    • Ang kulay ng ang iyong mga mata at ang iyong taas

    Ang isang mahalagang bagay na dapat maunawaan tungkol sa ugnayan ay ipinapakita lamang nito kung gaano kalapit ang pagkakaugnay ng dalawang variable. Ang ugnayan, gayunpaman, ay hindi nagpapahiwatigmula sa isang tinukoy na hanay.

  • ROWS at COLUMNS - ibalik ang bilang ng mga row at column sa isang range, ayon sa pagkakabanggit. Sa aming pormula ng ugnayan, pareho ang ginagamit sa isang layunin - makuha ang bilang ng mga column upang i-offset mula sa panimulang hanay. At ito ay nakakamit sa pamamagitan ng matalinong paggamit ng absolute at relative reference.
  • Upang mas maunawaan ang logic, tingnan natin kung paano kinakalkula ng formula ang mga coefficient na naka-highlight sa screenshot sa itaas.

    Una, hayaan natin suriin ang formula sa B18, na nakakahanap ng ugnayan sa pagitan ng buwanang temperatura (B2:B13) at mga heater na ibinebenta (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Sa unang OFFSET function, ROWS($1: 1) ay nagbago sa ROWS($1:3) dahil ang pangalawang coordinate ay kamag-anak, kaya nagbabago ito batay sa relatibong posisyon ng row kung saan kinokopya ang formula (2 row pababa). Kaya, ang ROWS() ay nagbabalik ng 3, kung saan ibinabawas natin ang 1, at nakakakuha ng hanay na 2 column sa kanan ng hanay ng pinagmulan, ibig sabihin, $D$2:$D$13 (mga benta ng pampainit).

    Ang hindi binabago ng pangalawang OFFSET ang tinukoy na hanay na $B$2:$B$13 (temperatura) dahil ang COLUMNS($A:A)-1 ay nagbabalik ng zero.

    Bilang resulta, ang aming mahabang formula ay nagiging isang simpleng CORREL( $D$2:$D$13, $B$2:$B$13) at ibinabalik ang eksaktong coefficient na gusto namin.

    Ang formula sa C18 na nagkalkula ng correlation coefficient para sa gastos sa advertising (C2:C13) at mga benta ( D2:D13) ay gumagana sa katulad na paraan:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Ang unang OFFSET function ayganap na kapareho ng inilalarawan sa itaas, na ibinabalik ang hanay na $D$2:$D$13 (mga benta ng pampainit).

    Sa pangalawang OFFSET, ang COLUMNS($A:A)-1 ay nagbabago sa COLUMNS($A: B)-1 dahil kinopya namin ang column ng formula 1 sa kanan. Dahil dito, nakakakuha ang OFFSET ng range na 1 column sa kanan ng source range, ibig sabihin, $C$2:$C$13 (gastos sa advertising).

    Paano mag-plot ng correlation graph sa Excel

    Kapag gumagawa ng ugnayan sa Excel, ang pinakamahusay na paraan upang makakuha ng visual na representasyon ng mga relasyon sa pagitan ng iyong data ay ang gumuhit ng scatter plot na may trendline . Ganito:

    1. Pumili ng dalawang column na may numeric na data, kabilang ang mga header ng column. Ang pagkakasunud-sunod ng mga column ay mahalaga: ang independent variable ay dapat nasa kaliwang column dahil ang column na ito ay ilalagay sa x axis; ang variable na dependent ay dapat nasa kanang column dahil ipi-plot ito sa y axis.
    2. Sa tab na Inset , sa Mga Chat grupo, i-click ang icon ng chart na Scatter . Kaagad itong maglalagay ng XY scatter chart sa iyong worksheet.
    3. I-right click ang anumang data point sa chart at piliin ang Magdagdag ng Trendline... mula sa menu ng konteksto.

    Para sa mga detalyadong sunud-sunod na tagubilin, pakitingnan ang:

    • Paano gumawa ng scatter plot sa Excel
    • Paano magdagdag ng trendline sa Excel chart

    Para sa aming sample na set ng data, ang mga correlation graph ay mukhang ipinapakita sa larawan sa ibaba.Bukod pa rito, ipinakita namin ang R-squared value, na tinatawag ding Coefficient of Determination . Isinasaad ng value na ito kung gaano kahusay tumutugma ang trendline sa data - mas malapit ang R2 sa 1, mas maganda ang fit.

    Mula sa value ng R2 na ipinapakita sa iyong scatterplot, madali mong makalkula ang correlation coefficient:

    1. Para sa mas mahusay na katumpakan, hilingin sa Excel na magpakita ng higit pang mga digit sa R-squared value kaysa sa ginagawa nito bilang default.
    2. I-click ang R2 value sa chart, piliin ito gamit ang mouse, at pindutin ang Ctrl + C upang kopyahin ito.
    3. Kumuha ng square root ng R2 alinman sa pamamagitan ng paggamit ng SQRT function o sa pamamagitan ng pagtaas ng kinopyang halaga ng R2 sa kapangyarihan na 0.5.

    Halimbawa, ang Ang halaga ng R2 sa pangalawang graph ay 0.9174339392. Kaya, mahahanap mo ang coefficient ng ugnayan para sa Advertising at Mga nabentang heater gamit ang isa sa mga formula na ito:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Gaya ng masisiguro mo, ang mga koepisyent na kinakalkula sa ganitong paraan ay ganap na naaayon sa mga koepisyent ng ugnayan na makikita sa mga nakaraang halimbawa, maliban sa tanda :

    Mga potensyal na problema sa ugnayan sa Excel

    Ang Pearson Product Moment Correlation ay nagpapakita lamang ng linear na relasyon sa pagitan ng dalawang variable. Ibig sabihin, ang iyong mga variable ay maaaring malakas na nauugnay sa isa pa, curvilinear, paraan at mayroon pa ring coefficient ng ugnayan na katumbas o malapit sa zero.

    Ang Pearson correlation ay hindi magagawangmakilala ang mga variable na dependent at independent . Halimbawa, kapag ginagamit ang CORREL function upang mahanap ang kaugnayan sa pagitan ng isang average na buwanang temperatura at ang bilang ng mga heater na ibinebenta, nakakuha kami ng coefficient na -0.97, na nagpapahiwatig ng mataas na negatibong ugnayan. Gayunpaman, maaari kang lumipat sa paligid ng mga variable at makakuha ng parehong resulta. Kaya, maaaring isipin ng isang tao na ang mas mataas na benta ng pampainit ay nagiging sanhi ng pagbagsak ng temperatura, na malinaw na walang kahulugan. Samakatuwid, kapag nagpapatakbo ng pagsusuri ng ugnayan sa Excel, magkaroon ng kamalayan sa data na iyong ibinibigay.

    Bukod pa rito, ang ugnayan ng Pearson ay napakasensitibo sa mga outlier . Kung mayroon kang isa o higit pang mga punto ng data na malaki ang pagkakaiba sa iba pang data, maaari kang makakuha ng baluktot na larawan ng ugnayan sa pagitan ng mga variable. Sa kasong ito, makabubuting gamitin na lang ang Spearman rank correlation.

    Ganyan ang paggawa ng correlation sa Excel. Upang mas masusing tingnan ang mga halimbawang tinalakay sa tutorial na ito, malugod kang i-download ang aming sample na workbook sa ibaba. Salamat sa pagbabasa at umaasa akong makita ka sa aming blog sa susunod na linggo!

    Practice workbook

    Kalkulahin ang Correlation sa Excel (.xlsx file)

    sanhi. Ang katotohanan na ang mga pagbabago sa isang variable ay nauugnay sa mga pagbabago sa isa pang variable ay hindi nangangahulugan na ang isang variable ay talagang nagiging sanhi ng pagbabago sa isa pa.

    Kung interesado kang matutunan ang sanhi at gumawa ng mga hula, gumawa ng isang hakbang pasulong at magsagawa ng linear regression analysis.

    Correlation coefficient sa Excel - interpretasyon ng correlation

    Ang numerical measure ng antas ng pagkakaugnay sa pagitan ng dalawang tuluy-tuloy na variable ay tinatawag na correlation coefficient ( r).

    Ang coefficient value ay palaging nasa pagitan ng -1 at 1 at sinusukat nito ang parehong lakas at direksyon ng linear na relasyon sa pagitan ng mga variable.

    Lakas

    Ang mas malaki ang absolute value ng coefficient, mas malakas ang relasyon:

    • Ang mga extreme value ng -1 at 1 ay nagpapahiwatig ng perpektong linear na relasyon kapag ang lahat ng data point ay nahulog sa isang linya. Sa pagsasagawa, ang perpektong ugnayan, positibo man o negatibo, ay bihirang maobserbahan.
    • Ang coefficient ng 0 ay nagpapahiwatig ng walang linear na relasyon sa pagitan ng mga variable. Ito ang malamang na makukuha mo sa dalawang hanay ng mga random na numero.
    • Ang mga halaga sa pagitan ng 0 at +1/-1 ay kumakatawan sa isang sukat ng mahina, katamtaman at malakas na mga relasyon. Habang lumalapit ang r sa alinman sa -1 o 1, tataas ang lakas ng relasyon.

    Direksyon

    Ang coefficient sign (plus o minus) ay nagpapahiwatig ng direksyon ngrelasyon.

    • Ang mga positibong coefficient ay kumakatawan sa direktang ugnayan at gumagawa ng pataas na slope sa isang graph - habang ang isang variable ay tumataas gayundin ang isa, at kabaliktaran.
    • Ang mga negative coefficient ay kumakatawan sa kabaligtaran na ugnayan at gumagawa ng pababang slope sa isang graph - habang tumataas ang isang variable, may posibilidad na bumaba ang isa pang variable.

    Para sa mas mahusay na pag-unawa, pakitingnan ang ang mga sumusunod na correlation graph:

    • Ang coefficient ng 1 ay nangangahulugang isang perpektong positibong relasyon - habang tumataas ang isang variable, proporsyonal na tumataas ang isa.
    • Isang coefficient ng -1 ay nangangahulugang isang perpektong negatibong relasyon - habang tumataas ang isang variable, bumababa nang proporsyonal ang isa.
    • Ang coefficient ng 0 ay nangangahulugang walang kaugnayan sa pagitan ng dalawang variable - ang mga punto ng data ay nakakalat sa buong graph.

    Pearson correlation

    Sa mga istatistika, sinusukat nila ang ilang uri ng correlation depende sa uri ng data na ginagamit mo. Sa tutorial na ito, tututukan natin ang pinakakaraniwan.

    Pearson Correlation , ang buong pangalan ay ang Pearson Product Moment Correlation (PPMC), ay ginagamit upang suriin ang linear na mga ugnayan sa pagitan ng data kapag ang isang pagbabago sa isang variable ay nauugnay sa isang proporsyonal na pagbabago sa isa pang variable. Sa mga simpleng salita, sinasagot ng Pearson Correlation ang tanong: Maaari bang maipakita ang data sa alinya?

    Sa mga istatistika, ito ang pinakasikat na uri ng ugnayan, at kung nakikitungo ka sa isang "correlation coefficient" nang walang karagdagang kwalipikasyon, ito ay malamang na ang Pearson.

    Narito ang pinakakaraniwang ginagamit na formula para mahanap ang Pearson correlation coefficient, tinatawag ding Pearson's R :

    Kung minsan, maaari kang makakita ng dalawa pang formula para sa pagkalkula ng sample correlation coefficient (r) at ang populasyon correlation coefficient (ρ).

    Paano gawin ang Pearson correlation sa Excel

    Ang pagkalkula ng Pearson correlation coefficient sa pamamagitan ng kamay ay nagsasangkot ng napakaraming matematika . Sa kabutihang palad, ginawa ng Microsoft Excel ang mga bagay na napakasimple. Depende sa iyong set ng data at sa iyong layunin, malaya kang gumamit ng isa sa mga sumusunod na diskarte:

    • Hanapin ang coefficient ng ugnayan ng Pearson gamit ang CORREL function.
    • Gumawa ng correlation matrix ayon sa nagsasagawa ng Pagsusuri ng Data.
    • Maghanap ng maraming coefficient ng correlation na may formula.
    • Mag-plot ng correlation graph upang makuha ang visual na representasyon ng relasyon ng data.

    Paano magkalkula correlation coefficient sa Excel

    Upang makalkula ang isang correlation coefficient sa pamamagitan ng kamay, kailangan mong gamitin ang napakahabang formula na ito. Upang makahanap ng correlation coefficient sa Excel, gamitin ang CORREL o PEARSON function at makuha ang resulta sa isang fraction ng isang segundo.

    Excel CORREL function

    Ibinabalik ng CORREL function angPearson correlation coefficient para sa dalawang hanay ng mga halaga. Ang syntax nito ay napakadali at prangka:

    CORREL(array1, array2)

    Kung saan:

    • Array1 ang unang hanay ng mga value.
    • <10 Ang> Array2 ay ang pangalawang hanay ng mga value.

    Ang dalawang array ay dapat na magkapareho ang haba.

    Ipagpalagay na mayroon kaming set ng mga independent variable ( x ) sa B2:B13 at mga dependent variable (y) sa C2:C13, ang aming correlation coefficient formula ay ganito:

    =CORREL(B2:B13, C2:C13)

    O, maaari naming palitan ang mga range at pa rin makuha ang parehong resulta:

    =CORREL(C2:C13, B2:B13)

    Alinmang paraan, ang formula ay nagpapakita ng isang malakas na negatibong ugnayan (mga -0.97) sa pagitan ng average na buwanang temperatura at ang bilang ng mga heater na ibinebenta:

    3 bagay na dapat mong malaman tungkol sa CORREL function sa Excel

    Upang matagumpay na kalkulahin ang correlation coefficient sa Excel, pakitandaan ang 3 simpleng katotohanang ito:

    • Kung isa o higit pang mga cell sa isang array ay naglalaman ng teksto, mga lohikal na halaga o mga blangko, ang mga naturang cell ay binabalewala; kinakalkula ang mga cell na may zero na halaga.
    • Kung magkaiba ang haba ng mga ibinigay na array, ibabalik ang #N/A error.
    • Kung ang alinman sa mga array ay walang laman o kung ang standard deviation ng ang kanilang mga halaga ay katumbas ng zero, isang #DIV/0! nangyayari ang error.

    Excel PEARSON function

    Ginagawa ng PEARSON function sa Excel ang parehong bagay - kinakalkula ang Pearson Product Moment Correlation coefficient.

    PEARSON(array1,array2)

    Kung saan:

    • Array1 ay isang hanay ng mga independent value.
    • Array2 ay isang hanay ng mga dependent value.

    Dahil parehong kinukuwenta ng PEARSON at CORREL ang Pearson linear correlation coefficient, dapat magkasundo ang kanilang mga resulta, at karaniwang ginagawa nila sa mga kamakailang bersyon ng Excel 2007 hanggang Excel 2019.

    Sa Excel 2003 at mga naunang bersyon, gayunpaman, ang PEARSON function ay maaaring magpakita ng ilang mga error sa pag-ikot. Samakatuwid, sa mga mas lumang bersyon, inirerekumenda na gumamit ng CORREL bilang kagustuhan sa PEARSON.

    Sa aming sample na set ng data, ang parehong mga function ay nagpapakita ng parehong mga resulta:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Paano gumawa ng correlation matrix sa Excel gamit ang Data Analysis

    Kapag kailangan mong subukan ang mga interrelasyon sa pagitan ng higit sa dalawang variable, makatuwirang gumawa ng correlation matrix, na kung minsan ay tinatawag na multiple correlation coefficient .

    Ang correlation matrix ay isang table na nagpapakita ng correlation coefficient sa pagitan ng mga variable sa intersection ng mga katumbas na row at column.

    Ang correlation matrix sa Excel ay binuo gamit ang Correlation tool mula sa Analysis ToolPak add-in. Available ang add-in na ito sa lahat ng bersyon ng Excel 2003 hanggang Excel 2019, ngunit hindi pinagana bilang default. Kung hindi mo pa ito ina-activate, mangyaring gawin ito ngayon sa pamamagitan ng pagsunod sa mga hakbang na inilarawan sa Paano paganahin ang Data Analysis ToolPak sa Excel.

    Gamit angang mga tool sa Pagsusuri ng Data na idinagdag sa iyong Excel ribbon, handa kang magpatakbo ng pagsusuri ng ugnayan:

    1. Sa kanang sulok sa itaas ng tab na Data > Pagsusuri grupo, i-click ang button na Pagsusuri ng Data .
    2. Sa dialog box na Pagsusuri ng Data , piliin ang Kaugnayan at i-click ang OK.
    3. Sa kahon ng Correlation , i-configure ang mga parameter sa ganitong paraan:
      • Mag-click sa kahon na Input Range at piliin ang range na may iyong source data, kabilang ang mga header ng column (B1:D13 sa aming kaso).
      • Sa seksyong Grouped by , tiyaking napili ang Column radio box (ibinigay na ang iyong source data ay nakagrupo sa mga column).
      • Piliin ang Mga Label sa unang row check box kung ang napiling hanay ay naglalaman ng mga header ng column.
      • Piliin ang gustong opsyon na output. Upang magkaroon ng matrix sa parehong sheet, piliin ang Saklaw ng Output at tukuyin ang reference sa pinakakaliwang cell kung saan ilalabas ang matrix (A15 sa halimbawang ito).

    Kapag tapos na, i-click ang button na OK :

    Ang iyong matrix ng correlation coefficients ay tapos na at dapat magmukhang tulad ng ipinapakita sa susunod na seksyon.

    Pagbibigay-kahulugan sa mga resulta ng pagsusuri ng ugnayan

    Sa iyong Excel correlation matrix, mahahanap mo ang mga coefficient sa intersection ng mga row at column. Kung pareho ang column at row coordinate, ang value 1 ay output.

    Sa itaashalimbawa, interesado kaming malaman ang ugnayan sa pagitan ng dependent variable (bilang ng mga heater na nabenta) at dalawang independent variable (average na buwanang temperatura at mga gastos sa advertising). Kaya, tinitingnan lang namin ang mga numero sa intersection ng mga row at column na ito, na naka-highlight sa screenshot sa ibaba:

    Ang negatibong koepisyent ng -0.97 (na bilugan sa 2 decimal na lugar) ay nagpapakita ng isang malakas na kabaligtaran na ugnayan sa pagitan ang buwanang temperatura at mga benta ng pampainit - habang tumataas ang temperatura, mas kaunting mga heater ang ibinebenta.

    Ang positibong coefficient na 0.97 (na bilugan sa 2 decimal na lugar) ay nagpapahiwatig ng isang malakas na direktang koneksyon sa pagitan ng badyet sa advertising at mga benta - mas marami pera na ginagastos mo sa pag-advertise, mas mataas ang benta.

    Paano gumawa ng maramihang pagsusuri ng ugnayan sa Excel gamit ang mga formula

    Madali ang pagbuo ng talahanayan ng ugnayan gamit ang tool sa Pagsusuri ng Data. Gayunpaman, ang matrix na iyon ay static, ibig sabihin, kakailanganin mong muling magpatakbo ng pagsusuri ng ugnayan sa tuwing nagbabago ang pinagmumulan ng data.

    Ang magandang balita ay madali kang makakagawa ng katulad na talahanayan ng ugnayan nang mag-isa, at awtomatikong mag-a-update ang matrix na iyon. sa bawat pagbabago sa mga value ng pinagmulan.

    Upang magawa ito, gamitin ang generic na formula na ito:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))

    Mahalagang tala! Para gumana ang formula, dapat mong i-lockang unang variable range sa pamamagitan ng paggamit ng absolute cell references.

    Sa aming kaso, ang unang variable range ay $B$2:$B$13 (pakipansin ang $ sign na nagla-lock sa reference), at ang aming correlation formula ay tumatagal nito hugis:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Kapag handa na ang formula, bumuo tayo ng correlation matrix:

    1. Sa unang row at unang column ng matrix, i-type ang mga variable' mga label sa parehong pagkakasunud-sunod kung paano lumilitaw ang mga ito sa iyong source table (pakitingnan ang screenshot sa ibaba).
    2. Ilagay ang formula sa itaas sa pinakakaliwang cell (B16 sa aming kaso).
    3. I-drag ang formula pababa at sa kanan upang kopyahin ito sa pinakamaraming row at column kung kinakailangan (3 row at 3 column sa aming halimbawa).

    Bilang resulta, nakuha namin ang sumusunod na matrix na may maraming ugnayan coefficients. Pakipansin na ang mga coefficient na ibinalik ng aming formula ay eksaktong kapareho ng output ng Excel sa nakaraang halimbawa (ang mga nauugnay ay naka-highlight):

    Paano gumagana ang formula na ito

    Tulad ng alam mo na, ang Excel CORREL function ay nagbabalik ng correlation coefficient para sa dalawang set ng mga variable na iyong tinukoy. Ang pangunahing hamon ay ang pagbibigay ng naaangkop na mga saklaw sa kaukulang mga cell ng matrix. Para dito, ang unang variable range lang ang ilalagay mo sa formula at gagamitin ang mga sumusunod na function para gawin ang mga kinakailangang pagsasaayos:

    • OFFSET - nagbabalik ng range na isang ibinigay na bilang ng mga row at column

    Si Michael Brown ay isang dedikadong mahilig sa teknolohiya na may hilig sa pagpapasimple ng mga kumplikadong proseso gamit ang mga tool sa software. Sa higit sa isang dekada ng karanasan sa industriya ng tech, hinasa niya ang kanyang mga kasanayan sa Microsoft Excel at Outlook, pati na rin ang Google Sheets at Docs. Ang blog ni Michael ay nakatuon sa pagbabahagi ng kanyang kaalaman at kadalubhasaan sa iba, na nagbibigay ng madaling sundan na mga tip at mga tutorial para sa pagpapabuti ng pagiging produktibo at kahusayan. Isa ka mang batikang propesyonal o baguhan, nag-aalok ang blog ni Michael ng mahahalagang insight at praktikal na payo para masulit ang mahahalagang software tool na ito.