Innehållsförteckning
I handledningen förklaras grunderna för Spearmankorrelation på ett enkelt språk och det visas hur man beräknar Spearmans rangkorrelationskoefficient i Excel.
När du gör korrelationsanalyser i Excel kommer du i de flesta fall att använda Pearsons korrelation. Men eftersom Pearsons korrelationskoefficient endast mäter ett linjärt förhållande mellan två variabler fungerar den inte för alla datatyper - dina variabler kan vara starkt förknippade på ett icke-linjärt sätt och ändå ha koefficienten nära noll. Under sådana omständigheter kan du använda Spearmanrangkorrelation i stället för Pearsons.
Spearmankorrelation - grunderna
Spearman-korrelation är den icke-parametriska versionen av Pearsons korrelationskoefficient som mäter graden av samband mellan två variabler baserat på deras rangordning.
Pearson Product Moment Korrelation testar linjär Förhållandet mellan två kontinuerliga variabler. Linjärt innebär ett förhållande när två variabler förändras i samma riktning med en konstant hastighet.
Spearman Rank korrelation utvärderar monotonisk I ett monotont förhållande tenderar variablerna också att förändras tillsammans, men inte nödvändigtvis med en konstant hastighet.
När ska man göra Spearmankorrelation?
Spearman-korrelationsanalysen ska användas under någon av följande omständigheter när de underliggande antagandena för Pearson-korrelationen inte är uppfyllda:
- Om dina uppgifter uppvisar en icke-linjär samband eller inte är normalfördelade.
- Om minst en variabel är Ordinal Om värdena kan placeras i "första, andra, tredje..."-ordning har du att göra med ordinaldata.
- Om det finns betydande utflyktingar Till skillnad från Pearsonkorrelationen är Spearmankorrelationen inte känslig för avvikande värden eftersom den utför beräkningar på rangordningarna, så skillnaden mellan de faktiska värdena har ingen betydelse.
Du kan till exempel använda Spearmankorrelationen för att hitta svaren på följande frågor:
- Är personer med högre utbildning mer bekymrade över miljön?
- Har antalet symtom hos en patient ett samband med deras vilja att ta mediciner?
Spearman-korrelationskoefficient
I statistiken är det Spearman-korrelationskoefficient representeras av antingen r s eller den grekiska bokstaven ρ ("rho"), vilket är anledningen till att den ofta kallas Spearmans rho .
Spearmanrankkorrelationskoefficienten mäter både styrkan och riktningen på förhållandet mellan datarankarna. Koefficienten kan ha ett värde mellan -1 och 1, och ju närmare koefficientens absoluta värde ligger 1, desto starkare är förhållandet:
- 1 är en perfekt positiv korrelation.
- -1 är en perfekt negativ korrelation.
- 0 är ingen korrelation.
Spearman-formeln för rangkorrelation
Beroende på om det finns eller inte finns några likheter i rangordningen (två eller flera observationer får samma rang) kan Spearmankorrelationskoefficienten beräknas med någon av följande formler.
Om det finns inga bundna led En enklare formel räcker:
Var:
- d i är skillnaden mellan ett par rangord
- n är antalet observationer
För att hantera bundna rankningar måste den fullständiga versionen av Spearman-korrelationsformeln användas, som är en något modifierad version av Pearsons r:
Var:
- R(x) och R(y) är rangordningarna för de x och y variabler
- R(x) och R(y) är medelvärdena.
Hur man beräknar Spearmankorrelation i Excel med CORREL-funktionen
Tyvärr har Excel ingen inbyggd funktion för att beräkna Spearman-korrelationskoefficienten. Det betyder dock inte att du måste slita dig med ovanstående formler. Genom att manipulera Excel lite kan vi komma fram till ett mycket enklare sätt att beräkna Spearman-korrelationen.
Låt oss till exempel försöka ta reda på om vår fysiska aktivitet har något samband med vårt blodtryck. I kolumn B har vi det antal minuter som tio män i samma ålder spenderar dagligen på ett gym, och i kolumn C har vi deras systoliska blodtryck.
För att hitta Spearmankorrelationskoefficienten i Excel gör du så här:
- Rangordna dina uppgifter
Eftersom Spearmankorrelationen utvärderar sambanden mellan två variabler utifrån deras rangordning måste du rangordna dina källdata. Detta kan snabbt göras med hjälp av Excel-funktionen RANK.AVG.
För att rangordna den första variabeln (fysisk aktivitet) anger du nedanstående formel i D2 och drar den sedan ner till D11:
=RANK.AVG(B2,$B$2:$B$11,0)
För att rangordna den andra variabeln (blodtrycket), skriv in följande formel i cell E2 och kopiera den nedåt i kolumnen:
=RANK.AVG(C2,$C$2:$C$11,0)
För att formlerna ska fungera korrekt måste du se till att låsa områdena med absoluta cellreferenser.
Nu bör dina källdata se ut ungefär så här:
- Hitta Spearman-korrelationskoefficienten
När vi har fastställt rangordningen kan vi nu använda Excel-funktionen CORREL för att få fram Spearmans rho:
= KORREL(D2:D11, E2:E11)
Formeln ger en koefficient på -0,7576 (avrundat till fyra siffror), vilket visar ett ganska starkt negativt samband och gör att vi kan dra slutsatsen att ju mer en person tränar, desto lägre är blodtrycket.
Pearsons korrelationskoefficient för samma urval (-0,7445) visar på en något svagare korrelation, men fortfarande statistiskt signifikant:
Det fina med den här metoden är att den är snabb, enkel och fungerar oavsett om det finns lika poäng i rankingen eller inte.
Beräkna Spearman-korrelationskoefficienten i Excel med traditionell formel
Om du inte är helt säker på att CORREL-funktionen har beräknat Spearmans rho rätt kan du kontrollera resultatet med den traditionella formel som används i statistik. Så här gör du:
- Hitta skillnaden mellan varje par av rangord ( d ) genom att subtrahera en rang från den andra:
=D2-E2
Formeln placeras i F2 och kopieras sedan nedåt i kolumnen.
- Höj varje rangskillnad till två potenser ( d2 ):
=F2^2
Denna formel ska föras till kolumn G.
- Addera de kvadrerade skillnaderna:
=SUM(G2:G11)
Formeln kan användas i vilken tom cell som helst, G12 i vårt fall.
Från följande skärmdump kan du förmodligen få en bättre förståelse för dataarrangemanget:
- Beroende på om datamängden har några bundna rangord eller inte kan du använda en av dessa formler för att beräkna Spearmankorrelationskoefficienten.
I vårt exempel finns det inga oavgjorda resultat, så vi kan använda en enklare formel:
Med d2 är lika med 290, och n (antal observationer) är lika med 10, genomgår formeln följande omvandlingar:
Resultatet blir -0,75757575758, vilket stämmer perfekt överens med Spearmankorrelationskoefficienten som beräknades i det föregående exemplet.
I Microsoft Excel kan ovanstående beräkningar utföras med följande ekvation:
=1-(6*G12/(10*(10^2-1)))
Där G12 är summan av de kvadrerade rangskillnaderna (d2).
Hur man gör Spearmankorrelation i Excel med hjälp av en graf
Korrelationskoefficienterna i Excel mäter endast linjära (Pearson) eller monotona (Spearman) samband. Andra samband är dock möjliga. Oavsett vilken korrelation du gör är det alltid en bra idé att representera förhållandet mellan variablerna i ett diagram.
Så här gör du för att rita ett korrelationsdiagram för de rangordnade uppgifterna:
- Beräkna rangordningarna med hjälp av funktionen RANK.AVG enligt förklaringen i detta exempel.
- Välj två kolumner med rangord.
- Infoga ett XY-spridningsdiagram. För detta klickar du på Spridning diagram på den Insats på fliken Chattar grupp.
- Lägg till en trendlinje i diagrammet. Det snabbaste sättet är att klicka på Diagramelement knapp> Lägg till trendlinje... .
- Visa R-kvadratvärdet i diagrammet. Dubbelklicka på trendlinjen för att öppna dess ruta, växla till Alternativ för trendlinje och välj fliken Visa R-kvadratvärdet i diagrammet box.
- Visa fler siffror i R2-värdet för bättre precision.
Som resultat får du en visuell representation av förhållandet mellan leden. Dessutom får du en Bestämningskoefficient (R2), vars kvadratrot är Pearsons korrelationskoefficient (r). Men eftersom du har plottat de rangordnade uppgifterna är Pearsons r inget annat än Spearmans rho.
Observera: R-kvadrat är alltid ett positivt tal, och därför kommer den härledda Spearman-korrelationskoefficienten också alltid att vara positiv. För att lägga till ett lämpligt tecken är det bara att titta på linjen i korrelationsdiagrammet - en uppåtgående lutning indikerar en positiv korrelation (plustecken) och en nedåtgående lutning indikerar en negativ korrelation (minustecken).
I vårt fall är R2 lika med 0,5739210285. Använd funktionen SQRT för att hitta kvadratroten:
=SQRT(0,5739210285)
...och du får den redan välkända koefficienten 0,757575758.
Den nedåtgående lutningen i grafen visar en negativ korrelation, så vi lägger till minustecknet och får den korrekta Spearmankorrelationskoefficienten -0,757575758.
Så kan du beräkna Spearman-korrelationskoefficienten i Excel. Om du vill titta närmare på de exempel som diskuteras i den här handledningen är du välkommen att ladda ner vår exempelarbetsbok nedan. Tack för att du läste och hoppas att vi ses på vår blogg nästa vecka!
Arbetsbok för praktiska övningar
Spearman Rank Correlation i Excel (.xlsx-fil)