Inhoudsopgave
De handleiding legt de grondbeginselen van Spearman correlatie uit in eenvoudige taal en laat zien hoe de Spearman rangcorrelatiecoëfficiënt in Excel kan worden berekend.
Bij een correlatieanalyse in Excel zult u in de meeste gevallen de Pearson correlatie gebruiken. Maar omdat de Pearson correlatiecoëfficiënt alleen een lineair verband tussen twee variabelen meet, werkt hij niet voor alle soorten gegevens - uw variabelen kunnen op een niet-lineaire manier sterk geassocieerd zijn en toch de coëfficiënt dicht bij nul hebben. In dergelijke omstandigheden kunt u de Spearmanrangcorrelatie in plaats van die van Pearson.
Spearman correlatie - de grondbeginselen
De Spearman correlatie is de niet-parametrische versie van de correlatiecoëfficiënt van Pearson die de mate van associatie tussen twee variabelen meet op basis van hun rangorde.
De Pearson Product Moment Correlatie test de lineair relatie tussen twee continue variabelen. Lineair betekent een relatie wanneer twee variabelen met een constante snelheid in dezelfde richting veranderen.
Spearman rangcorrelatie evalueert de monotoon relatie tussen de gerangschikte waarden. Bij een monotone relatie neigen de variabelen ook samen te veranderen, maar niet noodzakelijk in een constant tempo.
Wanneer Spearman-correlatie?
De Spearman correlatieanalyse moet worden gebruikt in elk van de volgende omstandigheden wanneer niet wordt voldaan aan de onderliggende hypothesen van de Pearson correlatie:
- Als uw gegevens een niet-lineair relatie of zijn niet normaal verdeeld.
- Als ten minste één variabele ordinaal Als uw waarden kunnen worden geplaatst in de volgorde "eerste, tweede, derde...", heeft u te maken met ordinale gegevens.
- Indien er belangrijke uitschieters In tegenstelling tot de Pearson correlatie is de Spearman correlatie niet gevoelig voor uitschieters, omdat hij berekeningen uitvoert op de rangen, zodat het verschil tussen de werkelijke waarden geen betekenis heeft.
U kunt bijvoorbeeld de Spearman correlatie gebruiken om de antwoorden op de volgende vragen te vinden:
- Zijn mensen met een hoger opleidingsniveau meer begaan met het milieu?
- Is het aantal symptomen van een patiënt gerelateerd aan zijn bereidheid om medicijnen te nemen?
Spearman correlatiecoëfficiënt
In de statistiek, de Spearman correlatiecoëfficiënt wordt vertegenwoordigd door ofwel r s of de Griekse letter ρ ("rho"), daarom wordt het vaak genoemd Spearman's rho .
De Spearman rangcorrelatiecoëfficiënt meet zowel de sterkte als de richting van het verband tussen de rangen van gegevens. Hij kan elke waarde van -1 tot 1 hebben, en hoe dichter de absolute waarde van de coëfficiënt bij 1 ligt, hoe sterker het verband:
- 1 is een perfecte positieve correlatie
- -1 is een perfecte negatieve correlatie
- 0 is geen correlatie
Spearman rangcorrelatieformule
Afhankelijk van het al dan niet bestaan van banden in de rangschikking (dezelfde rang toegekend aan twee of meer waarnemingen), kan de Spearman-correlatiecoëfficiënt worden berekend met een van de volgende formules.
Als er geen gebonden rangen is een eenvoudiger formule voldoende:
Waar:
- d i is het verschil tussen een paar rangen
- n is het aantal waarnemingen
Om te gaan met gebonden rangen moet de volledige versie van de Spearman-correlatieformule worden gebruikt, die een licht gewijzigde versie van Pearson's r is:
Waar:
- R(x) en R(y) zijn de rangen van de x en y variabelen
- R(x) en R(y) zijn de gemiddelde rangen
Hoe de Spearman correlatie berekenen in Excel met de functie CORREL
Helaas heeft Excel geen ingebouwde functie voor het berekenen van de Spearman rangcorrelatiecoëfficiënt. Dat betekent echter niet dat u uw hersenen moet pijnigen met bovenstaande formules. Door Excel een beetje te manipuleren, kunnen we een veel eenvoudiger manier vinden om de Spearman-correlatie te berekenen.
Laten we als voorbeeld proberen na te gaan of onze lichaamsbeweging enig verband houdt met onze bloeddruk. In kolom B staat het aantal minuten dat 10 mannen van dezelfde leeftijd dagelijks in een sportschool doorbrengen, en in kolom C staat hun systolische bloeddruk.
Voer de volgende stappen uit om de Spearman correlatiecoëfficiënt te vinden in Excel:
- Uw gegevens rangschikken
Omdat de Spearman-correlatie de verbanden tussen twee variabelen evalueert op basis van hun rangorde, moet u uw brongegevens rangschikken. Dit kan snel gebeuren met de functie RANK.AVG in Excel.
Om de eerste variabele (lichamelijke activiteit) te rangschikken, voert u de onderstaande formule in D2 in en sleept u hem vervolgens naar D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Om de tweede variabele (bloeddruk) te rangschikken, zet u de volgende formule in cel E2 en kopieert u deze naar beneden in de kolom:
=RANK.AVG(C2,$C$2:$C$11,0)
Om de formules correct te laten werken, moet u de bereiken vergrendelen met absolute celverwijzingen.
Op dit punt zouden uw brongegevens er ongeveer zo uit moeten zien:
- Zoek Spearman correlatiecoëfficiënt
Nu de rangorde is vastgesteld, kunnen we de CORREL-functie van Excel gebruiken om Spearman's rho te verkrijgen:
=CORREL(D2:D11, E2:E11)
De formule geeft een coëfficiënt van -0,7576 (afgerond op 4 cijfers), wat wijst op een vrij sterke negatieve correlatie en waaruit we kunnen concluderen dat hoe meer iemand beweegt, hoe lager zijn bloeddruk is.
De correlatiecoëfficiënt van Pearson voor dezelfde steekproef (-0,7445) wijst op een iets zwakkere correlatie, maar is nog steeds statistisch significant:
Het mooie van deze methode is dat ze snel en gemakkelijk is, en werkt ongeacht of er banden in de rangschikking zijn of niet.
Bereken Spearman correlatiecoëfficiënt in Excel met traditionele formule
Als u er niet helemaal zeker van bent dat de CORREL-functie Spearman's rho juist heeft berekend, kunt u het resultaat controleren met de traditionele formule die in de statistiek wordt gebruikt. Hier ziet u hoe:
- Zoek het verschil tussen elk paar rangen ( d ) door de ene rang van de andere af te trekken:
=D2-E2
Deze formule gaat naar F2 en wordt dan in de kolom naar beneden gekopieerd.
- Verhef elk rangverschil tot de macht twee ( d2 ):
=F2^2
Deze formule gaat naar kolom G.
- Tel de verschillen in het kwadraat op:
=SUM(G2:G11)
Deze formule kan naar elke lege cel gaan, G12 in ons geval.
Uit de volgende schermafbeelding kunt u waarschijnlijk een beter inzicht krijgen in de gegevensindeling:
- Afhankelijk van het feit of uw gegevensverzameling al dan niet gebonden rangen heeft, gebruikt u een van deze formules om de Spearman correlatiecoëfficiënt te berekenen.
In ons voorbeeld zijn er geen stropdassen, dus kunnen we een eenvoudiger formule gebruiken:
Met d2 gelijk aan 290, en n (aantal waarnemingen) gelijk is aan 10, ondergaat de formule de volgende transformaties:
Het resultaat is -0,757575758, wat perfect overeenkomt met de Spearman-correlatiecoëfficiënt die in het vorige voorbeeld is berekend.
In Microsoft Excel kunnen de bovenstaande berekeningen worden uitgevoerd met de volgende vergelijking:
=1-(6*G12/(10*(10^2-1)))
Waarbij G12 de som is van de gekwadrateerde rangverschillen (d2).
Spearman correlatie in Excel met behulp van een grafiek
De correlatiecoëfficiënten in Excel meten alleen lineaire (Pearson) of monotone (Spearman) verbanden. Er zijn echter ook andere verbanden mogelijk. Ongeacht welke correlatie u uitvoert, is het dus altijd een goed idee om het verband tussen de variabelen in een grafiek weer te geven.
Om een correlatiegrafiek te tekenen voor de gerangschikte gegevens, moet u het volgende doen:
- Bereken de rangen met de functie RANK.AVG, zoals uitgelegd in dit voorbeeld.
- Selecteer twee kolommen met de rangen.
- Voeg een XY-grafiek in. Klik hiervoor op de knop Strooi kaart pictogram op de Inzet tabblad, in de Chats groep.
- Voeg een trendlijn toe aan uw grafiek. De snelste manier is om te klikken op de knop Grafiekelementen knop> Trendline toevoegen... .
- Geef de R-kwadraatwaarde op de grafiek weer. Dubbelklik op de trendlijn om het deelvenster ervan te openen, schakel over naar de Trendlijn opties tabblad en selecteer de Toon R-kwadraat waarde op de kaart doos.
- Toon meer cijfers in de R2-waarde voor meer nauwkeurigheid.
Als resultaat krijgt u een visuele weergave van de relatie tussen de rangen. Bovendien krijgt u de Determinatiecoëfficiënt (R2), waarvan de vierkantswortel de Pearson correlatiecoëfficiënt (r) is. Maar omdat u de gerangschikte gegevens hebt uitgezet, is deze Pearson's r niets anders dan Spearman's rho.
Opmerking: R-kwadraat is altijd een positief getal, dus de afgeleide Spearman rangcorrelatiecoëfficiënt zal ook altijd positief zijn. Om een passend teken toe te voegen, kijkt u naar de lijn in uw correlatiegrafiek - een opwaartse helling wijst op een positieve correlatie (plusteken) en een neerwaartse helling wijst op een negatieve correlatie (minteken).
In ons geval is R2 gelijk aan 0,5739210285. Gebruik de SQRT-functie om de vierkantswortel te vinden:
=SQRT(0.5739210285)
...en je krijgt de al bekende coëfficiënt van 0,757575758.
De neerwaartse helling in de grafiek vertoont een negatieve correlatie, dus voegen we het minteken toe en krijgen we de juiste Spearman correlatiecoëfficiënt van -0,757575758.
Dat is hoe u de Spearman rangcorrelatiecoëfficiënt in Excel kunt berekenen. Om de voorbeelden die in deze tutorial worden besproken nader te bekijken, kunt u hieronder onze voorbeeldwerkmap downloaden. Ik dank u voor het lezen en hoop u volgende week op onze blog te zien!
Praktijk werkboek
Spearman rangcorrelatie in Excel (.xlsx-bestand)