Korrelaasje yn Excel: koëffisjint, matrix en grafyk

  • Diel Dit
Michael Brown

De tutorial ferklearret de basis fan korrelaasje yn Excel, lit sjen hoe't jo in korrelaasjekoëffisjint kinne berekkenje, in korrelaasjematrix bouwe en de resultaten ynterpretearje.

Ien fan 'e ienfâldichste statistyske berekkeningen dy't jo kinne dwaan yn Excel is korrelaasje. Hoewol ienfâldich, is it heul nuttich om de relaasjes tusken twa of mear fariabelen te begripen. Microsoft Excel biedt alle nedige ark om korrelaasje-analyze út te fieren, jo moatte gewoan witte hoe't jo se brûke.

    Korrelaasje yn Excel - de basis

    Korrelaasje is in maatregel dy't de sterkte en rjochting beskriuwt fan in relaasje tusken twa fariabelen. It wurdt faak brûkt yn statistyk, ekonomy en sosjale wittenskippen foar budzjetten, bedriuwsplannen en sa.

    De metoade dy't brûkt wurdt om te bestudearjen hoe nau de fariabelen besibbe binne, wurdt korrelaasjeanalyse neamd.

    Hjir binne in pear foarbylden fan sterke korrelaasje:

    • It oantal calorieën dat jo ite en jo gewicht (positive korrelaasje)
    • De temperatuer bûten en jo ferwaarmingsrekken ( negative korrelaasje)

    En hjir de foarbylden fan gegevens dy't swak as gjin korrelaasje hawwe:

    • De namme fan jo kat en har favorite iten
    • De kleur fan dyn eagen en dyn hichte

    In wêzentlik ding om te begripen oer korrelaasje is dat it allinich sjen lit hoe nau besibbe twa fariabelen binne. Korrelaasje betsjut lykwols netút in spesifisearre berik.

  • RIJEN en KOLOMMEN - jout it oantal rigen en kolommen yn in berik respektivelik werom. Yn ús korrelaasjeformule wurde beide brûkt mei ien doel - krije it oantal kolommen om te kompensearjen fan it begjinbereik. En dit wurdt berikt troch it tûk gebrûk fan absolute en relative ferwizings.
  • Om de logika better te begripen, litte wy sjen hoe't de formule de koeffizienten berekkent dy't markearre binne yn 'e skermprint hjirboppe.

    Earst litte wy ûndersiikje de formule yn B18, dy't korrelaasje fynt tusken de moanlikse temperatuer (B2:B13) en ferkochte kachels (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Yn de earste OFFSET-funksje, ROWS($1: 1) is omfoarme ta ROWS($1:3) om't de twadde koördinaat relatyf is, sadat it feroaret op basis fan de relative posysje fan 'e rige wêryn't de formule kopiearre is (2 rigen nei ûnderen). Sa jout ROWS () 3 werom, wêrfan wy 1 ôflûke, en krije in berik dat 2 kolommen rjochts fan it boarneberik is, dus $D$2:$D$13 (kachelferkeap).

    De twadde OFFSET feroaret it oantsjutte berik $B$2:$B$13 (temperatuer) net, om't COLUMNS($A:A)-1 nul weromjout.

    As resultaat feroaret ús lange formule yn in ienfâldige CORREL( $D$2:$D$13, $B$2:$B$13) en jout krekt de koeffizient werom dy't wy wolle.

    De formule yn C18 dy't in korrelaasjekoëffisjint berekkent foar reklamekosten (C2:C13) en ferkeap ( D2:D13) wurket op in fergelykbere manier:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    De earste OFFSET-funksje isabsolút itselde as hjirboppe beskreaun, en it berik fan $D$2:$D$13 werombringt (ferkeapferkeap).

    Yn de twadde OFFSET feroaret COLUMNS($A:A)-1 yn COLUMNS($A: B)-1 om't wy de kolom formule 1 nei rjochts kopiearre hawwe. Dêrtroch krijt OFFSET in berik dat 1 kolom rjochts fan it boarneberik is, dus $C$2:$C$13 (reklamekosten).

    Hoe kinne jo in korrelaasjegrafyk plotje yn Excel

    By it dwaan fan korrelaasje yn Excel, is de bêste manier om in fisuele fertsjintwurdiging fan 'e relaasjes tusken jo gegevens te krijen om in scatterplot te tekenjen mei in trendline . Hjir is hoe:

    1. Selektearje twa kolommen mei numerike gegevens, ynklusyf kolomkoppen. De folchoarder fan kolommen is wichtich: de ûnôfhinklike fariabele moat yn 'e lofterkolom stean, om't dizze kolom op 'e x-as útset wurde moat; de ôfhinklike fariabele moat yn 'e rjochterkolom stean, om't it op 'e y-as útset wurde sil.
    2. Op de Ynset ljepper, yn de Chats groep, klikje op it Scatter -diagrampictogram. Dit sil daliks in XY-spriedingsdiagram yn jo wurkblêd ynfoegje.
    3. Rjochtsklik op elk gegevenspunt yn it diagram en kies Trendline taheakje... út it kontekstmenu.

    Foar de detaillearre stap-foar-stap ynstruksjes, sjoch asjebleaft:

    • Hoe kinne jo scatterplot meitsje yn Excel
    • Hoe kinne jo trendline tafoegje oan Excel-diagram

    Foar ús stekproefgegevensset, sjogge de korrelaasjegrafiken út as werjûn yn 'e ôfbylding hjirûnder.Derneist hawwe wy R-kwadraatwearde werjûn, ek wol de Bepalingskoëffisjint neamd. Dizze wearde jout oan hoe goed de trendline oerienkomt mei de gegevens - hoe tichter R2 by 1 is, hoe better de fit.

    Fan de R2-wearde werjûn op jo scatterplot kinne jo de korrelaasjekoëffisjint maklik berekkenje:

    1. Krij Excel foar bettere krektens om mear sifers yn 'e R-kwadraatwearde te sjen as it standert is.
    2. Klik op de R2-wearde op 'e kaart, selektearje it mei de mûs en druk op Ctrl + C om it te kopiearjen.
    3. Krij in fjouwerkantswoartel fan R2 troch de SQRT-funksje te brûken of troch de kopiearre R2-wearde te ferheegjen nei de macht fan 0,5.

    Bygelyks, de R2 wearde yn 'e twadde grafyk is 0,9174339392. Sa kinne jo de korrelaasjekoëffisjint fine foar Reklame en ferkochte kachels mei ien fan dizze formules:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    As jo ​​der wis fan kinne, binne de op dizze manier berekkene koeffizienten perfekt yn oerienstimming mei de korrelaasjekoeffisienten fûn yn 'e foarige foarbylden, útsein it teken :

    Potensjele problemen mei korrelaasje yn Excel

    De Pearson Product Moment Correlation lit allinich in lineêre relaasje tusken de twa fariabelen sjen. Dat betsjut dat jo fariabelen sterk besibbe binne op in oare, kromlineêre manier en noch altyd de korrelaasjekoëffisjint lyk oan of tichtby nul hawwe.

    De Pearson-korrelaasje is net yn steat om ôfhinklike en ûnôfhinklike fariabelen ûnderskiede. Bygelyks, by it brûken fan de CORREL-funksje om de assosjaasje te finen tusken in gemiddelde moannetemperatuer en it oantal ferkochte kachels, krigen wy in koeffizient fan -0,97, wat in hege negative korrelaasje oanjout. Jo kinne lykwols oer de fariabelen wikselje en itselde resultaat krije. Dus, immen kin konkludearje dat hegere kachelferkeap de temperatuer falle, wat fansels gjin sin hat. Dêrom, by it útfieren fan korrelaasje-analyze yn Excel, wês bewust fan 'e gegevens dy't jo leverje.

    Boppedat is de Pearson-korrelaasje tige gefoelich foar outliers . As jo ​​ien of mear gegevenspunten hawwe dy't sterk ferskille fan 'e rest fan 'e gegevens, kinne jo in ferfoarme byld krije fan 'e relaasje tusken de fariabelen. Yn dit gefal soene jo ferstannich wêze om ynstee de Spearman-rangkorrelaasje te brûken.

    Sa kinne jo korrelaasje dwaan yn Excel. Om de foarbylden dy't yn dizze tutorial besprutsen binne tichterby te besjen, binne jo wolkom om ús foarbyldwurkboek hjirûnder te downloaden. Ik tankje jo foar it lêzen en hoopje jo nije wike op ús blog te sjen!

    Oefenwurkboek

    Korrelaasje berekkenje yn Excel (.xlsx-bestân)

    causation. It feit dat feroarings yn de iene fariabele ferbûn binne mei feroaringen yn de oare fariabele betsjut net dat de iene fariabele de oare feroaret.

    As jo ​​ynteressearre binne om kausaliteit te learen en foarsizzingen te meitsjen, nim dan in stap foarút. en útfiere lineêre regression-analyze.

    Korrelaasjekoëffisjint yn Excel - ynterpretaasje fan korrelaasje

    De numerike mjitting fan 'e graad fan assosjaasje tusken twa trochgeande fariabelen wurdt de korrelaasjekoëffisjint neamd ( r).

    De koeffizientwearde leit altyd tusken -1 en 1 en it mjit sawol de sterkte as de rjochting fan de lineêre relaasje tusken de fariabelen.

    Sterkte

    De gruttere de absolute wearde fan de koeffizient, hoe sterker de relaasje:

    • De ekstreme wearden fan -1 en 1 jouwe in perfekte lineêre relaasje oan as alle gegevenspunten op in line falle. Yn 'e praktyk wurdt in perfekte korrelaasje, itsij posityf as negatyf, selden waarnommen.
    • In koeffizient fan 0 jout oan dat der gjin lineêre relaasje tusken de fariabelen is. Dit is wat jo wierskynlik krije mei twa sets willekeurige nûmers.
    • Wearden tusken 0 en +1/-1 fertsjintwurdigje in skaal fan swakke, matige en sterke relaasjes. As r tichter by of -1 of 1 komt, nimt de sterkte fan 'e relaasje ta.

    Richting

    It koëffisjintteken (plus of min) jout de rjochting fan derelaasje.

    • Positive -koëffisjinten fertsjintwurdigje direkte korrelaasje en produsearje in opwaartse helling op in grafyk - as de iene fariabele ferheget, nimt de oare ta, en oarsom.
    • Negative -koëffisjinten fertsjintwurdigje inverse korrelaasje en produsearje in delgeande helling op in grafyk - as ien fariabele ferheget, hat de oare fariabele de neiging om te ferminderjen.

    Foar better begryp, sjoch ris nei de folgjende korrelaasjegrafiken:

    • In koeffizient fan 1 betsjut in perfekte positive relaasje - as ien fariabele ferheget, nimt de oare proporsjoneel ta.
    • In koeffizient fan -1 betsjut in perfekte negative relaasje - as ien fariabele ferheget, nimt de oare evenredich ôf.
    • In koeffizient fan 0 betsjut gjin relaasje tusken twa fariabelen - de gegevenspunten binne ferspraat oer de hiele grafyk.

    Pearson-korrelaasje

    Yn statistiken mjitte se ferskate soarten korrelaasje ôfhinklik fan it type gegevens wêrmei jo wurkje. Yn dizze tutorial sille wy rjochtsje op de meast foarkommende.

    Pearson Correlation , de folsleine namme is de Pearson Product Moment Correlation (PPMC), wurdt brûkt om evaluearje lineêre relaasjes tusken gegevens as in feroaring yn ien fariabele is assosjearre mei in evenredige feroaring yn 'e oare fariabele. Yn ienfâldige termen beantwurdet de Pearson-korrelaasje de fraach: Kin de gegevens wurde fertsjintwurdige op inline?

    Yn statistiken is it it populêrste korrelaasjetype, en as jo te krijen hawwe mei in "korrelaasjekoëffisjint" sûnder fierdere kwalifikaasje, is it nei alle gedachten de Pearson.

    Hjir is de meast brûkte formule om de Pearson-korrelaasjekoëffisjint te finen, ek wol Pearson's R neamd:

    Soms kinne jo twa oare formules tsjinkomme foar it berekkenjen fan de sample correlation coefficient (r) en de befolkingskorrelaasjekoëffisjint (ρ).

    Hoe kin ik Pearson-korrelaasje dwaan yn Excel

    It berekkenjen fan de Pearson-korrelaasjekoëffisjint mei de hân hat in soad wiskunde . Gelokkich hat Microsoft Excel dingen heul ienfâldich makke. Ofhinklik fan jo gegevensset en jo doel, kinne jo ien fan 'e folgjende techniken brûke:

    • Fyn de Pearson-korrelaasjekoëffisjint mei de CORREL-funksje.
    • Meitsje in korrelaasjematrix troch it útfieren fan Data Analysis.
    • Fyn meardere korrelaasjekoeffisienten mei in formule.
    • Plot in korrelaasjegrafyk om de fisuele foarstelling fan de gegevensrelaasje te krijen.

    Hoe berekkenje korrelaasjekoëffisjint yn Excel

    Om in korrelaasjekoëffisjint mei de hân te berekkenjen, moatte jo dizze lange formule brûke. Om korrelaasjekoëffisjint te finen yn Excel, brûk de CORREL- of PEARSON-funksje en krije it resultaat yn in fraksje fan in sekonde.

    Excel CORREL-funksje

    De CORREL-funksje jout dePearson-korrelaasjekoëffisjint foar twa sets fan wearden. De syntaksis is hiel maklik en rjochtlinich:

    CORREL(array1, array2)

    Wêr:

    • Array1 is it earste berik fan wearden.
    • Array2 is it twadde berik fan wearden.

    De twa arrays moatte gelikense lingte hawwe.

    Aannommen dat wy in set fan ûnôfhinklike fariabelen hawwe ( x ) yn B2:B13 en ôfhinklike fariabelen (y) yn C2:C13, ús korrelaasjekoëffisjintformule giet as folget:

    =CORREL(B2:B13, C2:C13)

    Of, wy kinne de berikken wikselje en noch altyd krije itselde resultaat:

    =CORREL(C2:C13, B2:B13)

    De formule lit yn alle gefallen in sterke negative korrelaasje sjen (sawat -0,97) tusken de gemiddelde moannetemperatuer en it oantal ferkochte kachels:

    3 dingen dy't jo witte moatte oer de CORREL-funksje yn Excel

    Om de korrelaasjekoëffisjint yn Excel mei súkses te berekkenjen, hâld dan dizze 3 ienfâldige feiten yn gedachten:

    • As ien of mear sellen yn in array befettet tekst, logyske wearden of blanks, sokke sellen wurde negearre; sellen mei nul wearden wurde berekkene.
    • As de oanlevere arrays fan ferskillende lingten binne, wurdt in #N/A flater weromjûn.
    • As ien fan de arrays leech is of as de standertdeviaasje fan harren wearden is gelyk oan nul, in #DIV/0! flater optreedt.

    Excel PEARSON-funksje

    De PEARSON-funksje yn Excel docht itselde ding - berekkent de Pearson Product Moment Correlation Coefficient.

    PEARSON(array1,array2)

    Wêr:

    • Array1 is in berik fan ûnôfhinklike wearden.
    • Array2 is in berik fan ôfhinklike wearden.

    Om't PEARSON en CORREL beide de Pearson lineêre korrelaasjekoëffisjint berekkenje, soene har resultaten it iens moatte, en dat dogge se oer it algemien yn resinte ferzjes fan Excel 2007 oant Excel 2019.

    Yn Excel 2003 en eardere ferzjes, lykwols, de PEARSON funksje kin werjaan wat rounding flaters. Dêrom, yn âldere ferzjes, is it oan te rieden om CORREL te brûken yn 'e foarkar foar PEARSON.

    Op ús stekproefdataset fertoane beide funksjes deselde resultaten:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Hoe kinne jo in korrelaasjematrix meitsje yn Excel mei gegevensanalyze

    As jo ​​ynterrelaasjes tusken mear as twa fariabelen testje moatte, hat it sin om in korrelaasjematrix te konstruearjen, dy't soms <1 wurdt neamd>meardere korrelaasjekoëffisjint .

    De korrelaasjematrix is in tabel dy't de korrelaasjekoeffizienten sjen lit tusken de fariabelen op it krúspunt fan de oerienkommende rigen en kolommen.

    De korrelaasjematrix yn Excel is boud mei it Korrelaasje -ark fan de Analysis ToolPak -add-in. Dizze tafoeging is beskikber yn alle ferzjes fan Excel 2003 oant en mei Excel 2019, mar is net standert ynskeakele. As jo ​​it noch net aktivearre hawwe, doch dit dan no troch de stappen te folgjen dy't beskreaun binne yn Hoe kinne jo Data Analysis ToolPak yn Excel ynskeakelje.

    Meide ark foar gegevensanalyse tafoege oan jo Excel-lint, jo binne ree om korrelaasjeanalyse út te fieren:

    1. Op 'e rjochterboppehoeke fan it ljepblêd Data > Analyse groep, klikje op de knop Gegevensanalyse .
    2. Selektearje yn it dialoochfinster Gegevensanalyse Korrelaasje en klikje op OK.
    3. Konfigurearje yn it fak Korrelaasje de parameters op dizze manier:
      • Klik yn it fak Ynfierberik en selektearje it berik mei jo boarne gegevens, ynklusyf kolomkoppen (B1:D13 yn ús gefal).
      • Yn de Groupearre troch seksje, soargje derfoar dat it radiofak Kolommen selektearre is (jûn dat jo boarnegegevens yn kolommen groepearre binne).
      • Selektearje it karfakje Labels yn earste rige as it selektearre berik kolomkoppen befettet.
      • Kies de winske útfieropsje. Om de matrix yn itselde blêd te hawwen, selektearje Utfierberik en spesifisearje de ferwizing nei de sel meast lofts wêryn de matrix útfiert wurde moat (A15 yn dit foarbyld).

    As dien, klik dan op de knop OK :

    Jo matrix fan korrelaasjekoeffisienten is dien en moat der sa útsjen as yn 'e folgjende seksje.

    Korrelaasje-analyseresultaten ynterpretearje

    Yn jo Excel-korrelaasjematrix kinne jo de koeffizienten fine op 'e krusing fan rigen en kolommen. As de koördinaten fan de kolom en de rige itselde binne, wurdt de wearde 1 útfierd.

    Yn it boppesteandebygelyks, wy binne ynteressearre om te witten de korrelaasje tusken de ôfhinklike fariabele (oantal kachels ferkocht) en twa ûnôfhinklike fariabelen (gemiddelde moanlikse temperatuer en reklame kosten). Dat, wy sjogge allinich nei de nûmers op 'e krusing fan dizze rigen en kolommen, dy't markearre binne yn' e skermôfbylding hjirûnder:

    De negative koeffizient fan -0.97 (ôfrûn op 2 desimale plakken) lit in sterke omkearde korrelaasje sjen tusken de moanlikse temperatuer en kachelferkeap - as de temperatuer heger groeit, wurde minder kachels ferkocht.

    De positive koeffizient fan 0,97 (ôfrûn op 2 desimale plakken) jout in sterke direkte ferbining oan tusken it reklamebudzjet en ferkeap - hoe mear jild dat jo besteegje oan reklame, hoe heger de ferkeap.

    Hoe kinne jo meardere korrelaasje-analyze yn Excel dwaan mei formules

    It bouwen fan de korrelaasjetabel mei it Data Analysis-ark is maklik. Dy matrix is ​​lykwols statysk, wat betsjut dat jo elke kear as de boarnegegevens wizigje op 'e nij moatte útfiere korrelaasje-analyze.

    It goede nijs is dat jo sels maklik in ferlykbere korrelaasjetabel bouwe kinne, en dy matrix sil automatysk bywurkje. mei elke feroaring yn 'e boarnewearden.

    Om it dien te meitsjen, brûk dizze generyske formule:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , OFFSET( first_variable_range , 0, COLUMNS($A:A)-1))

    Wichtige opmerking! Foar de formule om te wurkjen, moatte jo beskoatteljeit earste fariabele berik troch it brûken fan absolute selferwizings.

    Yn ús gefal is it earste fariabele berik $B$2:$B$13 (sjoch asjebleaft it $-teken dat de referinsje beskoattelt), en ús korrelaasjeformule nimt dit foarm:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Mei de formule klear, litte wy in korrelaasjematrix konstruearje:

    1. Typ de fariabelen yn 'e earste rige en earste kolom fan 'e matrix' labels yn deselde folchoarder as se ferskine yn jo boarne tabel (sjoch asjebleaft de skermôfdruk hjirûnder).
    2. Ynfiere de boppesteande formule yn 'e sel meast links (B16 yn ús gefal).
    3. Slep de formule omleech en nei rjochts om it te kopiearjen nei safolle rigen en kolommen as nedich (3 rigen en 3 kolommen yn ús foarbyld).

    As resultaat hawwe wy de folgjende matrix mei meardere korrelaasje koeffizienten. Tink derom dat de koeffizienten weromjûn troch ús formule krekt itselde binne as útfier troch Excel yn it foarige foarbyld (de relevante binne markearre):

    Hoe't dizze formule wurket

    Lykas jo al witte, de Excel CORREL-funksje jout de korrelaasjekoëffisjint werom foar twa sets fan fariabelen dy't jo oantsjutte. De wichtichste útdaging is om de passende berik yn 'e oerienkommende sellen fan' e matrix te leverjen. Hjirfoar ynfiere jo allinich it earste fariabele berik yn 'e formule en brûke de folgjende funksjes om de nedige oanpassingen te meitsjen:

    • OFFSET - jout in berik werom dat in opjûn oantal rigen en kolommen is

    Michael Brown is in tawijd technology-entûsjast mei in passy foar it ferienfâldigjen fan komplekse prosessen mei software-ark. Mei mear as in desennium ûnderfining yn 'e tech-yndustry hat hy syn feardigens yn Microsoft Excel en Outlook, lykas Google Blêden en Docs, oanskerpe. Michael's blog is wijd oan it dielen fan syn kennis en ekspertize mei oaren, en biedt maklik te folgjen tips en tutorials foar it ferbetterjen fan produktiviteit en effisjinsje. Oft jo in betûfte profesjonele of in begjinner binne, Michael's blog biedt weardefolle ynsjoch en praktysk advys om it measte út dizze essensjele software-ark te heljen.