Innholdsfortegnelse
Opplæringen forklarer det grunnleggende om Spearman-korrelasjon på et enkelt språk og viser hvordan du beregner Spearman-rangkorrelasjonskoeffisienten i Excel.
Når du gjør korrelasjonsanalyse i Excel, i de fleste tilfeller du vil forholde deg til Pearson-korrelasjonen. Men fordi Pearson-korrelasjonskoeffisienten kun måler en lineær sammenheng mellom to variabler, fungerer den ikke for alle datatyper - variablene dine kan være sterkt assosiert på en ikke-lineær måte og fortsatt ha koeffisienten nær null. Under slike omstendigheter kan du gjøre Spearman-rangkorrelasjonen i stedet for Pearsons.
Spearman-korrelasjon - det grunnleggende
Spearman-korrelasjonen er den ikke-parametriske versjon av Pearson-korrelasjonskoeffisienten som måler graden av assosiasjon mellom to variabler basert på deres rangeringer.
Pearson Product Moment Correlation tester det lineære forholdet mellom to kontinuerlige variabler. Lineær betyr en sammenheng når to variabler endres i samme retning med konstant hastighet.
Spearman Rank Correlation evaluerer det monotone forholdet mellom de rangerte verdiene. I et monotont forhold har variablene også en tendens til å endre seg sammen, men ikke nødvendigvis med konstant hastighet.
Når skal man gjøre Spearman-korrelasjon
Spearman-korrelasjonsanalysen skal brukes i alle følgendeomstendigheter når de underliggende forutsetningene for Pearson-korrelasjonen ikke er oppfylt:
- Hvis dataene dine viser et ikke-lineært forhold eller ikke er normalfordelt.
- Hvis minst én variabel er ordinal . Hvis verdiene dine kan plasseres i "første, andre, tredje..." rekkefølge, har du å gjøre med ordinære data.
- Hvis det er signifikante utliggere . I motsetning til Pearson-korrelasjonen, er ikke Spearman-korrelasjonen sensitiv for uteliggere fordi den utfører beregninger på rekkene, så forskjellen mellom faktiske verdier har ikke betydning.
Du kan for eksempel bruke Spearman-korrelasjonen. for å finne svar på følgende spørsmål:
- Er personer med høyere utdanning mer opptatt av miljøet?
- Er antallet symptomer en pasient har knyttet til viljen deres å ta medisiner?
Spearman-korrelasjonskoeffisient
I statistikk er Spearman-korrelasjonskoeffisienten representert med enten r s eller den greske bokstaven ρ ("rho"), som er grunnen til at den ofte kalles Spearman's rho .
Spearman-rangkorrelasjonskoeffisienten måler både styrke og retning av forholdet mellom rekkene av data. Det kan være en hvilken som helst verdi fra -1 til 1, og jo nærmere den absolutte verdien av koeffisienten er 1, jo sterkere er forholdet:
- 1 er en perfekt positivkorrelasjon
- -1 er en perfekt negativ korrelasjon
- 0 er ingen korrelasjon
Spearman rang korrelasjonsformel
Avhengig av om det finnes eller der ikke er uavgjort i rangeringen (samme rangering tilordnet to eller flere observasjoner), kan Spearman-korrelasjonskoeffisienten beregnes med en av følgende formler.
Hvis det ikke er ingen ulik rangering , vil en enklere formel gjøre:
Hvor:
- d i er forskjellen mellom et par av rekker
- n er antall observasjoner
For å håndtere sammenhengende rekker , den fulle versjonen av Spearman-korrelasjon formel må brukes, som er en litt modifisert versjon av Pearsons r:
Hvor:
- R(x) og R(y ) er rekkene til x - og y -variablene
- R(x) og R(y) er gjennomsnittsrangeringene
Hvordan beregne Spearman-korrelasjon i Excel med CORREL-funksjon
Dessverre har ikke Excel en innebygd funksjon for å beregne Spea rman rang korrelasjonskoeffisient. Det betyr imidlertid ikke at du må bruke formlene ovenfor. Ved å manipulere Excel litt, kan vi komme opp med en mye enklere måte å gjøre Spearman-korrelasjon på.
Som et eksempel, la oss prøve å finne ut om vår fysiske aktivitet har noen sammenheng med blodtrykket vårt. I kolonne B har vi antall minutter som 10 jevnaldrende menn brukerdaglig i et treningsstudio, og i kolonne C, har vi det systoliske blodtrykket deres.
For å finne Spearman-korrelasjonskoeffisienten i Excel, utfør disse trinnene:
- Ranger dataene dine
Fordi Spearman-korrelasjonen evaluerer assosiasjonene mellom to variabler basert på deres rangeringer, må du rangere kildedataene dine. Dette kan raskt gjøres ved å bruke Excel RANK.AVG-funksjonen.
For å rangere den første variabelen (fysisk aktivitet), skriv inn formelen nedenfor i D2 og dra den ned til D11:
=RANK.AVG(B2,$B$2:$B$11,0)
For å rangere den andre variabelen (blodtrykk), legg inn følgende formel i celle E2 og kopier den ned i kolonnen:
=RANK.AVG(C2,$C$2:$C$11,0)
For at formlene skal fungere riktig , sørg for å låse områdene med absolutte cellereferanser.
På dette tidspunktet skal kildedataene dine se slik ut:
- Finn Spearman korrelasjonskoeffisient
Med rangeringene etablert, kan vi nå bruke Excel CORREL-funksjonen for å få Spearmans rho:
=CORREL(D2:D11, E2:E11)
Formelen returnerer en koeffisient på -0,7576 (avrundet til 4 siffer), som viser en ganske sterk negativ korrelasjon og lar oss konkludere med at jo mer en person trener, jo lavere er blodtrykket.
Pearson-korrelasjonskoeffisienten for samme prøve (- 0,7445) indikerer litt svakere korrelasjon, men fortsatt statistica lly significant:
Det fine med dettemetoden er at den er rask, enkel og fungerer uavhengig av om det er ulikheter i rangeringen eller ikke.
Regn ut Spearman-korrelasjonskoeffisient i Excel med tradisjonell formel
Hvis du ikke er helt sikker at CORREL-funksjonen har beregnet Spearmans rho rett, kan du verifisere resultatet med den tradisjonelle formelen som brukes i statistikk. Slik gjør du det:
- Finn forskjellen mellom hvert par med rangeringer ( d ) ved å trekke en rangering fra den andre:
=D2-E2
Denne formelen går til F2 og kopieres deretter ned i kolonnen.
- Øv hver rangdifferanse til potensen av to ( d2 ):
=F2^2
Denne formelen går til kolonne G.
- Sett opp de kvadratiske forskjellene:
=SUM(G2:G11)
Se også: Hvordan telle tomme celler i ExcelDenne formelen kan gå til en hvilken som helst tom celle, G12 i vårt tilfelle.
Fra følgende skjermbilde vil du sannsynligvis få bedre resultater forståelse av dataarrangementet:
- Avhengig av om datasettet ditt har noen rangeringer eller ikke, bruk en av disse formlene for å beregne Spearman-korrelasjonskoeffisienten.
I vårt eksempel er det ingen bånd, så vi kan gå med en enklere formel:
Med d2 lik til 290, og n (antall observasjoner) lik 10, gjennomgår formelen følgende transformasjoner:
Som resultat får du -0,757575758 , som stemmer helt overens med Spearman-korrelasjonskoeffisienten beregnet iforrige eksempel.
I Microsoft Excel kan beregningene ovenfor utføres med følgende ligning:
=1-(6*G12/(10*(10^2-1)))
Hvor G12 er summen av kvadrerte rangeringsforskjeller (d2) .
Hvordan gjøre Spearman-korrelasjon i Excel ved hjelp av en graf
Korrelasjonskoeffisientene i Excel måler kun lineære (Pearson) eller monotone (Spearman) relasjoner. Imidlertid er andre assosiasjoner mulige. Så uansett hvilken korrelasjon du gjør, er det alltid en god idé å representere forholdet mellom variablene i en graf.
For å tegne en korrelasjonsgraf for de rangerte dataene, må du gjøre følgende:
- Beregn rangeringene ved å bruke RANK.AVG-funksjonen som forklart i dette eksempelet.
- Velg to kolonner med rangeringene.
- Sett inn et XY-spredningsdiagram. For dette, klikk på Scatter diagram -ikonet på Innsetting -fanen, i Chatter -gruppen.
- Legg til en trendlinje til diagrammet ditt. Den raskeste måten er å klikke på Kartelementer -knappen > Legg til trendlinje... .
- Vis R-kvadratverdi på diagrammet. Dobbeltklikk på trendlinjen for å åpne ruten, bytt til kategorien Trendlinjealternativer og velg boksen Vis R-kvadratverdi på diagram .
- Vis flere sifre i R2-verdien for bedre nøyaktighet.
Som resultat vil du få en visuell representasjon av forholdet mellom rekkene. I tillegg vil du få Determinasjonskoeffisient (R2), hvor kvadratroten er Pearson-korrelasjonskoeffisienten (r). Men fordi du har plottet de rangerte dataene, er denne Pearsons r ikke noe annet enn Spearmans rho.
Merk. R-kvadrat er alltid et positivt tall, derfor vil den utledede Spearman rangkorrelasjonskoeffisienten også alltid være positiv. For å legge til et passende tegn, se bare på linjen i korrelasjonsgrafen din - en stigning oppover indikerer en positiv korrelasjon (plusstegn) og en stigning nedover indikerer en negativ korrelasjon (minustegn).
I vårt tilfelle er R2 lik 0,5739210285. Bruk SQRT-funksjonen for å finne kvadratroten:
=SQRT(0.5739210285)
...og du vil få den allerede kjente koeffisienten på 0,757575758.
Den nedadgående helningen i grafen viser en negativ korrelasjon, så vi legger til minustegnet og får riktig Spearman-korrelasjonskoeffisient på -0,757575758.
Slik kan du beregne Spearman-rangkorrelasjonskoeffisienten i Excel. For å se nærmere på eksemplene som er diskutert i denne opplæringen, er du velkommen til å laste ned vår eksempelarbeidsbok nedenfor. Jeg takker for at du leser og håper å se deg på bloggen vår neste uke!
Øvningsarbeidsbok
Spearman Rank Correlation i Excel (.xlsx-fil)