Correlatie in Excel: coëfficiënt, matrix en grafiek

  • Deel Dit
Michael Brown

De handleiding legt de grondbeginselen van correlatie in Excel uit, laat zien hoe een correlatiecoëfficiënt kan worden berekend, hoe een correlatiematrix kan worden opgebouwd en hoe de resultaten kunnen worden geïnterpreteerd.

Een van de eenvoudigste statistische berekeningen die u in Excel kunt uitvoeren is correlatie. Hoewel eenvoudig, is het zeer nuttig om de relaties tussen twee of meer variabelen te begrijpen. Microsoft Excel biedt alle noodzakelijke hulpmiddelen om een correlatieanalyse uit te voeren, u moet alleen weten hoe u ze moet gebruiken.

    Correlatie in Excel - de basis

    Correlatie is een maatstaf die de sterkte en de richting van een verband tussen twee variabelen beschrijft. Hij wordt vaak gebruikt in de statistiek, de economie en de sociale wetenschappen voor begrotingen, bedrijfsplannen en dergelijke.

    De methode die wordt gebruikt om te bestuderen hoe nauw de variabelen met elkaar verbonden zijn, heet correlatieanalyse .

    Hier zijn een paar voorbeelden van sterke correlatie:

    • Het aantal calorieën dat je eet en je gewicht (positieve correlatie)
    • De buitentemperatuur en uw verwarmingskosten (negatieve correlatie)

    En hier de voorbeelden van gegevens die een zwakke of geen correlatie hebben:

    • De naam van uw kat en hun favoriete eten
    • De kleur van je ogen en je lengte

    Een essentieel punt bij correlatie is dat het alleen aangeeft hoe nauw twee variabelen met elkaar verbonden zijn. Correlatie impliceert echter geen oorzakelijk verband. Het feit dat veranderingen in de ene variabele samenhangen met veranderingen in de andere variabele, betekent niet dat de ene variabele de andere daadwerkelijk doet veranderen.

    Als u geïnteresseerd bent om causaliteit te leren kennen en voorspellingen te doen, doe dan een stap vooruit en voer een lineaire regressieanalyse uit.

    Correlatiecoëfficiënt in Excel - interpretatie van correlatie

    De numerieke maat voor de mate van associatie tussen twee continue variabelen wordt de correlatiecoëfficiënt (r).

    De coëfficiëntwaarde ligt altijd tussen -1 en 1 en meet zowel de sterkte als de richting van het lineaire verband tussen de variabelen.

    Sterkte

    Hoe groter de absolute waarde van de coëfficiënt, hoe sterker het verband:

    • De uiterste waarden van -1 en 1 wijzen op een perfect lineair verband wanneer alle datapunten op een lijn vallen. In de praktijk wordt een perfecte correlatie, positief of negatief, zelden waargenomen.
    • Een coëfficiënt van 0 geeft aan dat er geen lineair verband is tussen de variabelen. Dit is wat je waarschijnlijk krijgt met twee reeksen willekeurige getallen.
    • Waarden tussen 0 en +1/-1 staan voor een schaal van zwakke, matige en sterke relaties. Zoals r dichter bij -1 of 1 komt, neemt de sterkte van het verband toe.

    Richting

    Het coëfficiëntteken (plus of min) geeft de richting van het verband aan.

    • Positief coëfficiënten staan voor directe correlatie en geven een opwaartse helling in een grafiek - als de ene variabele toeneemt, neemt de andere ook toe, en omgekeerd.
    • Negatief coëfficiënten staan voor omgekeerde correlatie en produceren een neerwaartse helling op een grafiek - naarmate de ene variabele toeneemt, neemt de andere af.

    Bekijk voor een beter begrip de volgende correlatiegrafieken:

    • Een coëfficiënt van 1 betekent een perfect positief verband - als de ene variabele toeneemt, neemt de andere evenredig toe.
    • Een coëfficiënt van -1 betekent een perfect negatief verband - als de ene variabele toeneemt, neemt de andere evenredig af.
    • Een coëfficiënt van 0 betekent geen verband tussen twee variabelen - de datapunten liggen verspreid over de grafiek.

    Pearson correlatie

    In de statistiek meet men verschillende soorten correlaties, afhankelijk van het type gegevens waarmee men werkt. In deze tutorial zullen wij ons richten op de meest voorkomende.

    Pearson Correlatie de volledige naam is de Pearson Product Moment Correlatie (PPMC), wordt gebruikt om lineair relaties tussen gegevens wanneer een verandering in de ene variabele gepaard gaat met een evenredige verandering in de andere variabele. Eenvoudig gezegd beantwoordt de Pearson Correlatie de vraag: Kunnen de gegevens op een lijn worden weergegeven?

    In de statistiek is dit het meest populaire correlatietype, en als je te maken hebt met een "correlatiecoëfficiënt" zonder verdere kwalificatie, is het zeer waarschijnlijk de Pearson.

    Hier is de meest gebruikte formule om de correlatiecoëfficiënt van Pearson te vinden, ook wel genoemd Pearson's R :

    Soms komt u twee andere formules tegen voor de berekening van de steekproefcorrelatiecoëfficiënt (r) en de bevolkingscorrelatiecoëfficiënt (ρ).

    Hoe Pearson correlatie uitvoeren in Excel

    De berekening van de Pearson correlatiecoëfficiënt met de hand vergt nogal wat wiskunde. Gelukkig heeft Microsoft Excel de zaken heel eenvoudig gemaakt. Afhankelijk van uw gegevensverzameling en uw doel, staat het u vrij een van de volgende technieken te gebruiken:

    • Vind de correlatiecoëfficiënt van Pearson met de functie CORREL.
    • Maak een correlatiematrix door gegevensanalyse uit te voeren.
    • Vind meervoudige correlatiecoëfficiënten met een formule.
    • Maak een correlatiegrafiek om de relatie tussen de gegevens visueel weer te geven.

    Hoe correlatiecoëfficiënt berekenen in Excel

    Om een correlatiecoëfficiënt met de hand te berekenen, zou u deze lange formule moeten gebruiken. Om de correlatiecoëfficiënt in Excel te vinden, gebruikt u de functie CORREL of PEARSON en krijgt u het resultaat in een fractie van een seconde.

    Excel CORREL functie

    De functie CORREL geeft de correlatiecoëfficiënt van Pearson voor twee reeksen waarden. De syntaxis ervan is zeer eenvoudig en ongecompliceerd:

    CORREL(array1, array2)

    Waar:

    • Array1 is de eerste reeks waarden.
    • Array2 is de tweede reeks waarden.

    De twee matrices moeten even lang zijn.

    Ervan uitgaande dat we een reeks onafhankelijke variabelen hebben ( x ) in B2:B13 en afhankelijke variabelen (y) in C2:C13, gaat onze correlatiecoëfficiëntformule als volgt:

    =CORREL(B2:B13, C2:C13)

    Of we kunnen de bereiken verwisselen en nog steeds hetzelfde resultaat krijgen:

    =CORREL(C2:C13, B2:B13)

    Hoe dan ook, de formule toont een sterke negatieve correlatie (ongeveer -0,97) tussen de gemiddelde maandelijkse temperatuur en het aantal verkochte kachels:

    3 dingen die u moet weten over de functie CORREL in Excel

    Om de correlatiecoëfficiënt in Excel met succes te berekenen, moet u deze 3 eenvoudige feiten in gedachten houden:

    • Indien een of meer cellen in een matrix tekst, logische waarden of spaties bevatten, worden die cellen genegeerd; cellen met nulwaarden worden berekend.
    • Indien de geleverde matrices van verschillende lengte zijn, wordt een #N/A-fout geretourneerd.
    • Indien een van de matrices leeg is of indien de standaardafwijking van hun waarden gelijk is aan nul, treedt een #DIV/0! fout op.

    Excel PEARSON functie

    De PEARSON-functie in Excel doet hetzelfde - berekent de Pearson Product Moment Correlatiecoëfficiënt.

    PEARSON(array1, array2)

    Waar:

    • Array1 is een reeks onafhankelijke waarden.
    • Array2 is een reeks afhankelijke waarden.

    Omdat PEARSON en CORREL beide de lineaire correlatiecoëfficiënt van Pearson berekenen, zouden hun resultaten overeen moeten komen, en dat doen ze over het algemeen in recente versies van Excel 2007 tot en met Excel 2019.

    In Excel 2003 en eerdere versies kan de PEARSON-functie echter enkele afrondingsfouten vertonen. Daarom wordt in oudere versies aanbevolen CORREL te gebruiken in plaats van PEARSON.

    Op onze steekproef vertonen beide functies dezelfde resultaten:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Hoe maak je een correlatiematrix in Excel met Gegevensanalyse?

    Wanneer u de onderlinge relaties tussen meer dan twee variabelen moet testen, is het zinvol een correlatiematrix te construeren, die soms wordt aangeduid als meervoudige correlatiecoëfficiënt .

    De correlatiematrix is een tabel met de correlatiecoëfficiënten tussen de variabelen op het snijpunt van de overeenkomstige rijen en kolommen.

    De correlatiematrix in Excel wordt opgebouwd met behulp van de Correlatie gereedschap van de Analyse ToolPak Deze invoegtoepassing is beschikbaar in alle versies van Excel 2003 tot en met Excel 2019, maar is niet standaard ingeschakeld. Als u deze nog niet hebt geactiveerd, doe dit dan nu door de stappen te volgen die worden beschreven in Hoe schakelt u Data Analysis ToolPak in Excel in.

    Met de hulpmiddelen voor gegevensanalyse toegevoegd aan uw Excel-lint bent u klaar om correlatieanalyses uit te voeren:

    1. In de rechterbovenhoek van de Gegevens tab> Analyse groep, klik op de Gegevensanalyse knop.
    2. In de Gegevensanalyse dialoogvenster, selecteer Correlatie en klik op OK.
    3. In de Correlatie box, de parameters op deze manier configureren:
      • Klik in de Invoerbereik vak en selecteer het bereik met uw brongegevens, inclusief kolomkoppen (B1:D13 in ons geval).
      • In de Gegroepeerd door sectie, zorg ervoor dat de Kolommen keuzerondje is geselecteerd (aangezien uw brongegevens in kolommen zijn gegroepeerd).
      • Selecteer de Labels in de eerste rij vinkje als het geselecteerde bereik kolomkoppen bevat.
      • Kies de gewenste uitvoeroptie. Als u de matrix in hetzelfde blad wilt hebben, selecteert u Uitvoerbereik en geef de verwijzing op naar de meest linkse cel waarin de matrix moet worden uitgevoerd (A15 in dit voorbeeld).

    Wanneer u klaar bent, klikt u op de OK knop:

    Uw matrix van correlatiecoëfficiënten is klaar en zou er ongeveer zo uit moeten zien als in de volgende paragraaf.

    Interpretatie van de resultaten van de correlatieanalyse

    In uw Excel-correlatiematrix kunt u de coëfficiënten vinden op het snijpunt van rijen en kolommen. Indien de kolom- en rijcoördinaten gelijk zijn, wordt de waarde 1 uitgevoerd.

    In het bovenstaande voorbeeld zijn we geïnteresseerd in de correlatie tussen de afhankelijke variabele (aantal verkochte kachels) en twee onafhankelijke variabelen (gemiddelde maandelijkse temperatuur en advertentiekosten). We kijken dus alleen naar de getallen op het snijpunt van deze rijen en kolommen, die in de onderstaande schermafbeelding zijn gemarkeerd:

    De negatieve coëfficiënt van -0,97 (afgerond op 2 decimalen) wijst op een sterke omgekeerde correlatie tussen de maandelijkse temperatuur en de verkoop van kachels - naarmate de temperatuur hoger wordt, worden er minder kachels verkocht.

    De positieve coëfficiënt van 0,97 (afgerond op 2 decimalen) wijst op een sterk direct verband tussen het reclamebudget en de verkoop - hoe meer geld u uitgeeft aan reclame, hoe hoger de verkoop.

    Hoe meervoudige correlatieanalyse uitvoeren in Excel met formules

    Het opbouwen van de correlatietabel met het hulpmiddel Gegevensanalyse is eenvoudig. Die matrix is echter statisch, wat betekent dat u de correlatieanalyse opnieuw moet uitvoeren telkens wanneer de brongegevens veranderen.

    Het goede nieuws is dat u gemakkelijk zelf een soortgelijke correlatietabel kunt maken, en dat die matrix automatisch wordt bijgewerkt bij elke wijziging in de bronwaarden.

    Om het te laten doen, gebruik deze algemene formule:

    CORREL(OFFSET( eerste_variabele_bereik , 0, ROWS($1:1)-1), OFFSET( eerste_variabele_bereik , 0, KOLOMMEN($A:A)-1))

    Belangrijke opmerking: Om de formule te laten werken, moet u het eerste variabele bereik vergrendelen door absolute celverwijzingen te gebruiken.

    In ons geval is het eerste variabelebereik $B$2:$B$13 (let op het $-teken dat de verwijzing vergrendelt), en onze correlatieformule heeft deze vorm:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Nu de formule klaar is, kunnen we een correlatiematrix opstellen:

    1. Typ in de eerste rij en de eerste kolom van de matrix de labels van de variabelen in dezelfde volgorde als in uw brontabel (zie de schermafbeelding hieronder).
    2. Voer de bovenstaande formule in de meest linkse cel in (B16 in ons geval).
    3. Sleep de formule naar beneden en naar rechts om hem te kopiëren naar zoveel rijen en kolommen als nodig (3 rijen en 3 kolommen in ons voorbeeld).

    Het resultaat is de volgende matrix met meervoudige correlatiecoëfficiënten. Merk op dat de coëfficiënten die onze formule oplevert precies dezelfde zijn als de uitvoer van Excel in het vorige voorbeeld (de relevante zijn gemarkeerd):

    Hoe deze formule werkt

    Zoals u reeds weet, geeft de Excel CORREL-functie de correlatiecoëfficiënt voor twee reeksen variabelen die u opgeeft. De belangrijkste uitdaging bestaat erin de juiste bereiken in de overeenkomstige cellen van de matrix in te voeren. Daartoe voert u alleen het eerste variabelebereik in de formule in en gebruikt u de volgende functies om de nodige aanpassingen aan te brengen:

    • OFFSET - geeft een bereik dat een bepaald aantal rijen en kolommen is van een opgegeven bereik.
    • ROWS en COLUMNS - geven respectievelijk het aantal rijen en kolommen in een bereik. In onze correlatieformule worden beide gebruikt met één doel - het aantal kolommen krijgen om te verrekenen met het startbereik. En dit wordt bereikt door slim gebruik te maken van absolute en relatieve verwijzingen.

    Laten we, om de logica beter te begrijpen, eens kijken hoe de formule de coëfficiënten in de bovenstaande schermafbeelding berekent.

    Laten we eerst de formule in B18 onderzoeken, die een correlatie vindt tussen de maandelijkse temperatuur (B2:B13) en de verkochte kachels (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    In de eerste OFFSET-functie is ROWS($1:1) veranderd in ROWS($1:3) omdat de tweede coördinaat relatief is, dus verandert hij op basis van de relatieve positie van de rij waar de formule wordt gekopieerd (2 rijen omlaag). ROWS() geeft dus 3 terug, waarvan we 1 aftrekken, en we krijgen een bereik dat 2 kolommen rechts van het bronbereik ligt, d.w.z. $D$2:$D$13 (kachelverkoop).

    De tweede OFFSET verandert het opgegeven bereik $B$2:$B$13 (temperatuur) niet omdat COLUMNS($A:A)-1 nul oplevert.

    Het resultaat is dat onze lange formule verandert in een eenvoudige CORREL($D$2:$D$13, $B$2:$B$13) en precies de coëfficiënt oplevert die we willen.

    De formule in C18 die een correlatiecoëfficiënt voor reclamekosten (C2:C13) en verkoop (D2:D13) berekent, werkt op soortgelijke wijze:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    De eerste OFFSET-functie is absoluut hetzelfde als hierboven beschreven, en geeft het bereik van $D$2:$D$13 (kachelverkoop).

    In de tweede OFFSET verandert COLUMNS($A:A)-1 in COLUMNS($A:B)-1 omdat we de formule 1 kolom naar rechts hebben gekopieerd. Bijgevolg krijgt OFFSET een bereik dat 1 kolom rechts van het bronbereik ligt, d.w.z. $C$2:$C$13 (advertentiekosten).

    Hoe een correlatiegrafiek uitzetten in Excel

    Bij correlatie in Excel is de beste manier om een visuele weergave van de relaties tussen uw gegevens te krijgen het tekenen van een spreidingsdiagram met een trendlijn Dit is hoe:

    1. Selecteer twee kolommen met numerieke gegevens, inclusief kolomkoppen. De volgorde van de kolommen is belangrijk: de onafhankelijk variabele moet in de linkerkolom staan omdat deze kolom op de x-as moet worden uitgezet; de afhankelijk variabele moet in de rechterkolom staan, omdat deze op de y-as zal worden uitgezet.
    2. Op de Inzet tabblad, in de Chats groep, klik op de Strooi Dit voegt onmiddellijk een XY-strooiwagen in uw werkblad in.
    3. Klik met de rechtermuisknop op een gegevenspunt in de grafiek en kies Trendline toevoegen... uit het contextmenu.

    Voor de gedetailleerde stap-voor-stap instructies, zie:

    • Hoe maak je een spreidingsdiagram in Excel?
    • Hoe trendlijn toevoegen aan Excel grafiek

    Voor onze voorbeeldgegevens zien de correlatiegrafieken eruit zoals in de onderstaande afbeelding. Bovendien hebben we de R-kwadraatwaarde weergegeven, ook wel de Determinatiecoëfficiënt Deze waarde geeft aan hoe goed de trendlijn overeenkomt met de gegevens - hoe dichter R2 bij 1, hoe beter de aansluiting.

    Uit de R2-waarde op uw scatterplot kunt u gemakkelijk de correlatiecoëfficiënt berekenen:

    1. Voor meer nauwkeurigheid kunt u Excel zover krijgen dat het meer cijfers in de R-kwadraatwaarde toont dan het standaard doet.
    2. Klik op de R2-waarde op de kaart, selecteer deze met de muis en druk op Ctrl + C om hem te kopiëren.
    3. Maak een vierkantswortel van R2 door de SQRT-functie te gebruiken of door de gekopieerde R2-waarde te verheffen tot de macht 0,5.

    Bijvoorbeeld, de R2-waarde in de tweede grafiek is 0,9174339392. U kunt dus de correlatiecoëfficiënt vinden voor Reclame en Verkochte kachels met een van deze formules:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    De op deze wijze berekende coëfficiënten komen perfect overeen met de in de vorige voorbeelden gevonden correlatiecoëfficiënten, behalve het teken :

    Mogelijke problemen met correlatie in Excel

    De Pearson Product Moment Correlatie onthult alleen een lineair Dit betekent dat uw variabelen op een andere, kromlijnige, manier sterk aan elkaar gerelateerd kunnen zijn en dat de correlatiecoëfficiënt toch gelijk is aan of dicht bij nul ligt.

    De Pearson correlatie is niet in staat onderscheid te maken tussen afhankelijk en onafhankelijk Bijvoorbeeld, bij gebruik van de functie CORREL om het verband te vinden tussen een gemiddelde maandelijkse temperatuur en het aantal verkochte kachels, kregen we een coëfficiënt van -0,97, wat duidt op een hoge negatieve correlatie. Je zou echter de variabelen kunnen omwisselen en hetzelfde resultaat krijgen. Iemand zou dus kunnen concluderen dat een hogere verkoop van kachels de temperatuur doet dalen, wat natuurlijk geen steek houdt.Daarom moet u bij het uitvoeren van correlatieanalyses in Excel rekening houden met de gegevens die u aanlevert.

    Bovendien is de Pearson correlatie zeer gevoelig voor uitschieters Als u een of meer datapunten hebt die sterk verschillen van de rest van de gegevens, kunt u een vertekend beeld krijgen van het verband tussen de variabelen. In dat geval zou u er goed aan doen de Spearman rangcorrelatie te gebruiken.

    Dat is hoe je correlatie in Excel doet. Om de voorbeelden die in deze tutorial worden besproken nader te bekijken, kun je hieronder onze voorbeeldwerkmap downloaden. Ik dank je voor het lezen en hoop je volgende week op onze blog te zien!

    Praktijk werkboek

    Correlatie berekenen in Excel (.xlsx-bestand)

    Michael Brown is een toegewijde technologieliefhebber met een passie voor het vereenvoudigen van complexe processen met behulp van softwaretools. Met meer dan tien jaar ervaring in de technische industrie heeft hij zijn vaardigheden in Microsoft Excel en Outlook, evenals Google Spreadsheets en Documenten aangescherpt. Michael's blog is gewijd aan het delen van zijn kennis en expertise met anderen, met eenvoudig te volgen tips en tutorials voor het verbeteren van de productiviteit en efficiëntie. Of je nu een doorgewinterde professional of een beginner bent, Michaels blog biedt waardevolle inzichten en praktisch advies om het meeste uit deze essentiële softwaretools te halen.