Korrelasie in Excel: koëffisiënt, matriks en grafiek

  • Deel Dit
Michael Brown

Die tutoriaal verduidelik die basiese beginsels van korrelasie in Excel, wys hoe om 'n korrelasiekoëffisiënt te bereken, 'n korrelasiematriks te bou en die resultate te interpreteer.

Een van die eenvoudigste statistiese berekeninge wat jy in Excel kan doen, is korrelasie. Alhoewel dit eenvoudig is, is dit baie nuttig om die verbande tussen twee of meer veranderlikes te verstaan. Microsoft Excel verskaf al die nodige gereedskap om korrelasie-analise uit te voer, jy moet net weet hoe om dit te gebruik.

    Korrelasie in Excel - die basiese beginsels

    Korrelasie is 'n maatstaf wat die sterkte en rigting van 'n verwantskap tussen twee veranderlikes beskryf. Dit word algemeen in statistiek, ekonomie en sosiale wetenskappe gebruik vir begrotings, sakeplanne en dies meer.

    Die metode wat gebruik word om te bestudeer hoe nou die veranderlikes verwant is, word korrelasie-analise genoem.

    Hier is 'n paar voorbeelde van sterk korrelasie:

    • Die aantal kalorieë wat jy eet en jou gewig (positiewe korrelasie)
    • Die temperatuur buite en jou verwarmingsrekeninge ( negatiewe korrelasie)

    En hier is die voorbeelde van data wat swak of geen korrelasie het nie:

    • Jou kat se naam en hul gunsteling kos
    • Die kleur van jou oë en jou lengte

    'n Noodsaaklike ding om oor korrelasie te verstaan, is dat dit net wys hoe nou verwant twee veranderlikes is. Korrelasie impliseer egter nieuit 'n gespesifiseerde reeks.

  • RYE en KOLOMME - gee onderskeidelik die aantal rye en kolomme in 'n reeks terug. In ons korrelasieformule word albei met een doel gebruik - kry die aantal kolomme om van die beginreeks te verreken. En dit word bereik deur slim absolute en relatiewe verwysings te gebruik.
  • Om die logika beter te verstaan, kom ons kyk hoe die formule die koëffisiënte bereken wat in die skermkiekie hierbo uitgelig is.

    Eers, kom ons ondersoek die formule in B18, wat korrelasie vind tussen die maandelikse temperatuur (B2:B13) en verwarmers verkoop (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    In die eerste OFFSET-funksie, ROWS($1: 1) het getransformeer na RYE($1:3) omdat die tweede koördinaat relatief is, dus verander dit op grond van die relatiewe posisie van die ry waar die formule gekopieer is (2 rye af). Dus, ROWS() gee 3 terug, waarvan ons 1 aftrek, en kry 'n reeks wat 2 kolomme regs van die bronreeks is, dit wil sê $D$2:$D$13 (verwarmerverkope).

    Die tweede OFFSET verander nie die gespesifiseerde reeks $B$2:$B$13 (temperatuur) nie, want KOLOMME($A:A)-1 gee nul terug.

    Gevolglik verander ons lang formule in 'n eenvoudige CORREL( $D$2:$D$13, $B$2:$B$13) en gee presies die koëffisiënt terug wat ons wil hê.

    Die formule in C18 wat 'n korrelasiekoëffisiënt vir advertensiekoste (C2:C13) en verkope ( D2:D13) werk op 'n soortgelyke manier:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Die eerste OFFSET-funksie isabsoluut dieselfde as hierbo beskryf, en gee die reeks van $D$2:$D$13 (verwarmerverkope) terug.

    In die tweede OFFSET verander COLUMNS($A:A)-1 na COLUMNS($A: B)-1 omdat ons die formule 1 kolom na regs gekopieer het. Gevolglik kry OFFSET 'n reeks wat 1 kolom regs van die bronreeks is, dit wil sê $C$2:$C$13 (advertensiekoste).

    Hoe om 'n korrelasiegrafiek in Excel te plot

    Wanneer jy korrelasie in Excel doen, is die beste manier om 'n visuele voorstelling van die verwantskappe tussen jou data te kry om 'n verstrooiingsplot met 'n neigingslyn te teken. Dit is hoe:

    1. Kies twee kolomme met numeriese data, insluitend kolomopskrifte. Die volgorde van kolomme is belangrik: die onafhanklike veranderlike moet in die linkerkolom wees aangesien hierdie kolom op die x-as geplot moet word; die afhanklike veranderlike moet in die regterkolom wees, aangesien dit op die y-as geplot sal word.
    2. Op die Inset -oortjie, in die Klets groep, klik die Scatter grafiek-ikoon. Dit sal onmiddellik 'n XY-verspreidingsgrafiek in jou werkblad invoeg.
    3. Regsklik op enige datapunt in die grafiek en kies Voeg neiginglyn by... uit die kontekskieslys.

    Vir die gedetailleerde stap-vir-stap-instruksies, sien asseblief:

    • Hoe om spreidingsgrafiek in Excel te skep
    • Hoe om tendenslyn by Excel-grafiek te voeg

    Vir ons voorbeelddatastel lyk die korrelasiegrafieke soos in die prent hieronder.Daarbenewens het ons R-kwadraatwaarde vertoon, ook genoem die Bepalingskoëffisiënt . Hierdie waarde dui aan hoe goed die tendenslyn met die data ooreenstem - hoe nader R2 aan 1, hoe beter is die passing.

    Uit die R2-waarde wat op jou verspreidingsdiagram vertoon word, kan jy maklik die korrelasiekoëffisiënt bereken:

    1. Vir beter akkuraatheid, kry Excel om meer syfers in die R-kwadraatwaarde te wys as wat dit by verstek doen.
    2. Klik die R2-waarde op die grafiek, kies dit met die muis en druk Ctrl + C om dit te kopieer.
    3. Kry 'n vierkantswortel van R2 óf deur die SQRT-funksie te gebruik óf deur die gekopieerde R2-waarde tot die mag van 0.5 te verhoog.

    Byvoorbeeld, die R2-waarde in die tweede grafiek is 0,9174339392. So, jy kan die korrelasiekoëffisiënt vir Advertering en Verwarmers verkoop vind met een van hierdie formules:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Soos jy seker kan maak, is die koëffisiënte wat op hierdie manier bereken word, perfek in lyn met die korrelasiekoëffisiënte wat in die vorige voorbeelde gevind is, behalwe die teken :

    Potensiele probleme met korrelasie in Excel

    Die Pearson Produk Moment Korrelasie openbaar slegs 'n lineêre verwantskap tussen die twee veranderlikes. Dit beteken dat jou veranderlikes op 'n ander, kromlynige manier sterk verwant kan wees en steeds die korrelasiekoëffisiënt gelyk aan of naby aan nul kan hê.

    Die Pearson-korrelasie is nie in staat om afhanklike en onafhanklike veranderlikes te onderskei. Byvoorbeeld, wanneer die CORREL-funksie gebruik word om die assosiasie tussen 'n gemiddelde maandelikse temperatuur en die aantal verwarmers wat verkoop word, te vind, het ons 'n koëffisiënt van -0.97 gekry, wat 'n hoë negatiewe korrelasie aandui. U kan egter die veranderlikes omskakel en dieselfde resultaat kry. So, iemand kan tot die gevolgtrekking kom dat hoër verwarmerverkope veroorsaak dat temperatuur daal, wat natuurlik geen sin maak nie. Daarom, wanneer jy korrelasie-analise in Excel uitvoer, wees bewus van die data wat jy verskaf.

    Boonop is die Pearson-korrelasie baie sensitief vir uitskieters . As jy een of meer datapunte het wat baie van die res van die data verskil, kan jy 'n verwronge prentjie kry van die verwantskap tussen die veranderlikes. In hierdie geval sal jy wys wees om eerder die Spearman-rangkorrelasie te gebruik.

    Dit is hoe om korrelasie in Excel te doen. Om die voorbeelde wat in hierdie tutoriaal bespreek word van nader te bekyk, is u welkom om ons voorbeeldwerkboek hieronder af te laai. Ek bedank jou vir die lees en hoop om jou volgende week op ons blog te sien!

    Oefen werkboek

    Bereken korrelasie in Excel (.xlsx lêer)

    oorsaaklikheid. Die feit dat veranderinge in een veranderlike geassosieer word met veranderinge in die ander veranderlike, beteken nie dat een veranderlike eintlik die ander laat verander nie.

    As jy belangstel om oorsaaklikheid te leer en voorspellings te maak, neem 'n stap vorentoe en voer lineêre regressie-analise uit.

    Korrelasiekoëffisiënt in Excel - interpretasie van korrelasie

    Die numeriese maatstaf van die graad van assosiasie tussen twee kontinue veranderlikes word die korrelasiekoëffisiënt genoem ( r).

    Die koëffisiëntwaarde is altyd tussen -1 en 1 en dit meet beide die sterkte en rigting van die lineêre verwantskap tussen die veranderlikes.

    Sterkte

    Hoe groter die absolute waarde van die koëffisiënt, hoe sterker is die verwantskap:

    • Die uiterste waardes van -1 en 1 dui op 'n perfekte lineêre verwantskap wanneer al die datapunte op 'n lyn val. In die praktyk word 'n perfekte korrelasie, hetsy positief of negatief, selde waargeneem.
    • 'n Koëffisiënt van 0 dui op geen lineêre verband tussen die veranderlikes nie. Dit is wat jy waarskynlik sal kry met twee stelle ewekansige getalle.
    • Waardes tussen 0 en +1/-1 verteenwoordig 'n skaal van swak, matige en sterk verwantskappe. Soos r nader aan óf -1 óf 1 kom, neem die sterkte van die verwantskap toe.

    Rigting

    Die koëffisiëntteken (plus of minus) dui die rigting van dieverhouding.

    • Positiewe -koëffisiënte verteenwoordig direkte korrelasie en produseer 'n opwaartse helling op 'n grafiek - soos een veranderlike toeneem, neem die ander ook toe, en omgekeerd.
    • Negatiewe -koëffisiënte verteenwoordig inverse korrelasie en produseer 'n afwaartse helling op 'n grafiek - soos een veranderlike toeneem, is die ander veranderlike geneig om af te neem.

    Vir beter begrip, kyk gerus na die volgende korrelasiegrafieke:

    • 'n Koëffisiënt van 1 beteken 'n perfekte positiewe verwantskap - soos een veranderlike toeneem, neem die ander proporsioneel toe.
    • 'n Koëffisiënt van -1 beteken 'n perfekte negatiewe verwantskap - soos een veranderlike toeneem, verminder die ander proporsioneel.
    • 'n Koëffisiënt van 0 beteken geen verband tussen twee veranderlikes nie - die datapunte is versprei oor die grafiek.

    Pearson-korrelasie

    In statistieke meet hulle verskeie tipes korrelasie afhangende van die tipe data waarmee jy werk. In hierdie tutoriaal sal ons fokus op die mees algemene een.

    Pearson Correlation , die volle naam is die Pearson Product Moment Correlation (PPMC), word gebruik om evalueer lineêre verwantskappe tussen data wanneer 'n verandering in een veranderlike geassosieer word met 'n proporsionele verandering in die ander veranderlike. In eenvoudige terme beantwoord die Pearson-korrelasie die vraag: Kan die data op a voorgestel wordlyn?

    In statistieke is dit die gewildste korrelasietipe, en as jy te doen het met 'n "korrelasiekoëffisiënt" sonder verdere kwalifikasie, is dit heel waarskynlik die Pearson.

    Hier is die mees algemeen gebruikte formule om die Pearson-korrelasiekoëffisiënt te vind, ook genoem Pearson se R :

    Soms kan jy twee ander formules teëkom vir die berekening van die steekproefkorrelasiekoëffisiënt (r) en die bevolkingskorrelasiekoëffisiënt (ρ).

    Hoe om Pearson-korrelasie in Excel te doen

    Om die Pearson-korrelasiekoëffisiënt met die hand te bereken, behels nogal baie wiskunde . Gelukkig het Microsoft Excel dinge baie eenvoudig gemaak. Afhangende van jou datastel en jou doelwit, is jy vry om een ​​van die volgende tegnieke te gebruik:

    • Vind die Pearson-korrelasiekoëffisiënt met die CORREL-funksie.
    • Maak 'n korrelasiematriks deur uitvoer van data-analise.
    • Vind veelvuldige korrelasiekoëffisiënte met 'n formule.
    • Stip 'n korrelasiegrafiek om die visuele voorstelling van die dataverwantskap te kry.

    Hoe om te bereken korrelasiekoëffisiënt in Excel

    Om 'n korrelasiekoëffisiënt met die hand te bereken, sal jy hierdie lang formule moet gebruik. Om korrelasiekoëffisiënt in Excel te vind, gebruik die CORREL- of PEARSON-funksie en kry die resultaat in 'n breukdeel van 'n sekonde.

    Excel CORREL-funksie

    Die CORREL-funksie gee diePearson-korrelasiekoëffisiënt vir twee stelle waardes. Die sintaksis is baie maklik en eenvoudig:

    CORREL(skikking1, skikking2)

    Waar:

    • Skikking1 die eerste reeks waardes is.
    • Skikking2 is die tweede reeks waardes.

    Die twee skikkings moet ewe lank wees.

    As ons aanvaar dat ons 'n stel onafhanklike veranderlikes het ( x ) in B2:B13 en afhanklike veranderlikes (y) in C2:C13, gaan ons korrelasiekoëffisiëntformule soos volg:

    =CORREL(B2:B13, C2:C13)

    Of, ons kan die reekse omruil en steeds kry dieselfde resultaat:

    =CORREL(C2:C13, B2:B13)

    In elk geval, die formule toon 'n sterk negatiewe korrelasie (ongeveer -0.97) tussen die gemiddelde maandelikse temperatuur en die aantal verwarmers wat verkoop word:

    3 dinge wat jy moet weet oor die CORREL-funksie in Excel

    Om die korrelasiekoëffisiënt in Excel suksesvol te bereken, hou asseblief hierdie 3 eenvoudige feite in gedagte:

    • As een of meer selle in 'n skikking teks, logiese waardes of spasies bevat, word sulke selle geïgnoreer; selle met nulwaardes word bereken.
    • As die verskafde skikkings van verskillende lengtes is, word 'n #N/A-fout teruggestuur.
    • As een van die skikkings leeg is of as die standaardafwyking van hul waardes is gelyk aan nul, 'n #DIV/0! fout kom voor.

    Excel PEARSON-funksie

    Die PEARSON-funksie in Excel doen dieselfde ding - bereken die Pearson-produkmomentkorrelasiekoëffisiënt.

    PEARSON(skikking1,skikking2)

    Waar:

    • Skikking1 'n reeks onafhanklike waardes is.
    • Skikking2 is 'n reeks afhanklike waardes.

    Omdat PEARSON en CORREL beide die Pearson lineêre korrelasiekoëffisiënt bereken, behoort hul resultate ooreen te stem, en dit doen hulle gewoonlik in onlangse weergawes van Excel 2007 tot Excel 2019.

    In Excel 2003 en vroeër weergawes, maar die PEARSON-funksie kan 'n paar afrondingsfoute vertoon. Daarom word dit in ouer weergawes aanbeveel om CORREL eerder as PEARSON te gebruik.

    Op ons voorbeelddatastel vertoon albei funksies dieselfde resultate:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Hoe om 'n korrelasiematriks in Excel met Data-analise te maak

    Wanneer jy interverwantskappe tussen meer as twee veranderlikes moet toets, maak dit sin om 'n korrelasiematriks te konstrueer, wat soms genoem word meervoudige korrelasiekoëffisiënt .

    Die korrelasiematriks is 'n tabel wat die korrelasiekoëffisiënte tussen die veranderlikes by die snypunt van die ooreenstemmende rye en kolomme toon.

    Die korrelasiematriks in Excel word gebou deur die Korrelasie -instrument van die Analysis ToolPak -byvoeging te gebruik. Hierdie byvoeging is beskikbaar in alle weergawes van Excel 2003 tot Excel 2019, maar is nie by verstek geaktiveer nie. As jy dit nog nie geaktiveer het nie, doen dit asseblief nou deur die stappe te volg wat beskryf word in Hoe om Data Analysis ToolPak in Excel te aktiveer.

    Metdie Data-analise-nutsgoed wat by jou Excel-lint gevoeg is, is jy bereid om korrelasie-analise uit te voer:

    1. Op die regter boonste hoek van die Data -oortjie > Analise groep, klik die Data-analise -knoppie.
    2. In die Data-analise dialoogkassie, kies Korrelasie en klik OK.
    3. In die Korrelasie -kassie, stel die parameters op hierdie manier op:
      • Klik in die Invoerreeks -blokkie en kies die reeks met jou brondata, insluitend kolomopskrifte (B1:D13 in ons geval).
      • In die Gegroepeer volgens -afdeling, maak seker dat die Kolomme -radioboks gekies is (gegewe dat jou brondata in kolomme gegroepeer word).
      • Kies die Etikette in eerste ry -merkblokkie as die geselekteerde reeks kolomopskrifte bevat.
      • Kies die verlangde uitvoeropsie. Om die matriks in dieselfde blad te hê, kies Uitvoerreeks en spesifiseer die verwysing na die mees linkse sel waarin die matriks uitgevoer moet word (A15 in hierdie voorbeeld).

    Wanneer jy klaar is, klik die OK -knoppie:

    Jou matriks van korrelasiekoëffisiënte is klaar en behoort iets te lyk soos in die volgende afdeling getoon.

    Interpreteer korrelasie-analise resultate

    In jou Excel-korrelasiematriks kan jy die koëffisiënte vind by die snypunt van rye en kolomme. As die kolom- en rykoördinate dieselfde is, word die waarde 1 uitgevoer.

    In die bogenoemdebyvoorbeeld, ons stel belang om die korrelasie tussen die afhanklike veranderlike (aantal verwarmers verkoop) en twee onafhanklike veranderlikes (gemiddelde maandelikse temperatuur en advertensiekoste) te weet. Dus, ons kyk slegs na die getalle by die snypunt van hierdie rye en kolomme, wat in die skermkiekie hieronder uitgelig word:

    Die negatiewe koëffisiënt van -0.97 (afgerond tot 2 desimale plekke) toon 'n sterk inverse korrelasie tussen die maandelikse temperatuur en verwarmerverkope - soos die temperatuur hoër groei, word minder verwarmers verkoop.

    Die positiewe koëffisiënt van 0.97 (afgerond tot 2 desimale plekke) dui op 'n sterk direkte verband tussen die advertensiebegroting en verkope - hoe meer geld wat jy aan advertensies bestee, hoe hoër is die verkope.

    Hoe om meervoudige korrelasie-analise in Excel met formules te doen

    Om die korrelasietabel met die Data-analise-instrument te bou, is maklik. Daardie matriks is egter staties, wat beteken dat jy opnuut korrelasie-analise sal moet uitvoer elke keer as die brondata verander.

    Die goeie nuus is dat jy maklik self 'n soortgelyke korrelasietabel kan bou, en daardie matriks sal outomaties opdateer. met elke verandering in die bronwaardes.

    Om dit te laat doen, gebruik hierdie generiese formule:

    CORREL(OFFSET( eerste_veranderlike_reeks , 0, ROWS($1:1)-1) , OFFSET( eerste_veranderlike_reeks , 0, KOLOMME($A:A)-1))

    Belangrike nota! Vir die formule om te werk, moet jy sluitdie eerste veranderlike reeks deur absolute selverwysings te gebruik.

    In ons geval is die eerste veranderlike reeks $B$2:$B$13 (let asseblief op die $-teken wat die verwysing sluit), en ons korrelasieformule neem dit vorm:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Met die formule gereed, kom ons bou 'n korrelasiematriks:

    1. In die eerste ry en eerste kolom van die matriks, tik die veranderlikes' etikette in dieselfde volgorde as wat dit in jou brontabel verskyn (sien asseblief die skermkiekie hieronder).
    2. Voer die formule hierbo in die heel linkse sel in (B16 in ons geval).
    3. Sleep die formule af en na regs om dit na soveel rye en kolomme te kopieer as wat nodig is (3 rye en 3 kolomme in ons voorbeeld).

    As gevolg hiervan het ons die volgende matriks met veelvuldige korrelasie koëffisiënte. Let asseblief daarop dat die koëffisiënte wat deur ons formule teruggestuur word presies dieselfde is as die uitvoer deur Excel in die vorige voorbeeld (die relevante is uitgelig):

    Hoe hierdie formule werk

    Soos jy reeds weet, die Excel CORREL-funksie gee die korrelasiekoëffisiënt terug vir twee stelle veranderlikes wat jy spesifiseer. Die grootste uitdaging is om die toepaslike reekse in die ooreenstemmende selle van die matriks te verskaf. Hiervoor voer jy slegs die eerste veranderlike reeks in die formule in en gebruik die volgende funksies om die nodige aanpassings te maak:

    • OFFSET - gee 'n reeks terug wat 'n gegewe aantal rye en kolomme is

    Michael Brown is 'n toegewyde tegnologie-entoesias met 'n passie om komplekse prosesse te vereenvoudig deur sagteware-instrumente te gebruik. Met meer as 'n dekade se ondervinding in die tegnologiebedryf, het hy sy vaardighede in Microsoft Excel en Outlook, sowel as Google Sheets en Docs, opgeskerp. Michael se blog is toegewy daaraan om sy kennis en kundigheid met ander te deel, en verskaf maklik-om-te volg wenke en tutoriale vir die verbetering van produktiwiteit en doeltreffendheid. Of jy nou 'n ervare professionele persoon of 'n beginner is, Michael se blog bied waardevolle insigte en praktiese raad om die meeste uit hierdie noodsaaklike sagteware-nutsmiddels te kry.