Spearman rangkorrelation i Excel: formel og graf

  • Del Dette
Michael Brown

Vejledningen forklarer det grundlæggende i Spearman-korrelation i et enkelt sprog og viser, hvordan man beregner Spearman-rangkorrelationskoefficienten i Excel.

Når du laver korrelationsanalyser i Excel, vil du i de fleste tilfælde bruge Pearson-korrelationen. Men fordi Pearson-korrelationskoefficienten kun måler en lineær sammenhæng mellem to variabler, fungerer den ikke for alle datatyper - dine variabler kan være stærkt forbundet på en ikke-lineær måde og stadig have en koefficient tæt på nul. I sådanne tilfælde kan du bruge Spearman-korrelationskoefficientenrangkorrelation i stedet for Pearson's.

    Spearman-korrelation - det grundlæggende

    Spearman-korrelation er den ikke-parametriske version af Pearson-korrelationskoefficienten, der måler graden af sammenhæng mellem to variabler på grundlag af deres rangorden.

    Pearson Product Moment Korrelation tester den lineær Forholdet mellem to kontinuerte variabler. Lineær betyder et forhold, når to variabler ændrer sig i samme retning med en konstant hastighed.

    Spearman-rangkorrelation evaluerer den monotonisk I et monotont forhold har variablerne også en tendens til at ændre sig sammen, men ikke nødvendigvis med en konstant hastighed.

    Hvornår skal man foretage Spearman-korrelation?

    Spearman-korrelationsanalysen skal anvendes i en af følgende situationer, når de underliggende antagelser for Pearson-korrelationen ikke er opfyldt:

    1. Hvis dine data udviser en ikke-lineær sammenhæng eller ikke er normalfordelte.
    2. Hvis mindst én variabel er ordinal Hvis dine værdier kan placeres i "første, anden, tredje..."-rækkefølge, har du at gøre med ordinale data.
    3. Hvis der er betydelige udstikkere I modsætning til Pearson-korrelationen er Spearman-korrelationen ikke følsom over for outliers, fordi den udfører beregninger på rangordene, så forskellen mellem de faktiske værdier ikke har nogen betydning.

    Du kan f.eks. bruge Spearman-korrelationen til at finde svarene på følgende spørgsmål:

    • Er folk med et højere uddannelsesniveau mere bekymrede for miljøet?
    • Er antallet af symptomer, som en patient har, relateret til deres villighed til at tage medicin?

    Spearman-korrelationskoefficient

    I statistikkerne er det Spearman-korrelationskoefficient er repræsenteret ved enten r s eller det græske bogstav ρ ("rho"), hvorfor det ofte kaldes Spearmans rho .

    Spearman-rangkorrelationskoefficienten måler både styrken og retningen af forholdet mellem datarangerne. Den kan have en værdi fra -1 til 1, og jo tættere koefficientens absolutte værdi ligger på 1, jo stærkere er forholdet:

    • 1 er en perfekt positiv korrelation
    • -1 er en perfekt negativ korrelation
    • 0 er ingen korrelation

    Spearman-formel for rangkorrelation

    Afhængigt af, om der er eller ikke er nogen uafgjorthed i rangordningen (to eller flere observationer har samme rang), kan Spearman-korrelationskoefficienten beregnes med en af følgende formler.

    Hvis der er ingen bundne rækker , en mere enkel formel er tilstrækkelig:

    Hvor:

    • d i er forskellen mellem et par af ranger
    • n er antallet af observationer

    For at håndtere lige rækker skal den fulde version af Spearman-korrelationsformlen anvendes, som er en let modificeret version af Pearsons r:

    Hvor:

    • R(x) og R(y) er rækkerne af de x og y variabler
    • R(x) og R(y) er de gennemsnitlige ranger

    Sådan beregnes Spearman-korrelation i Excel med CORREL-funktionen

    Excel har desværre ikke en indbygget funktion til beregning af Spearman-korrelationskoefficienten. Det betyder dog ikke, at du skal bruge ovenstående formler til at knokle med hjernen. Ved at manipulere Excel en smule kan vi finde frem til en meget enklere måde at beregne Spearman-korrelation på.

    Lad os f.eks. prøve at finde ud af, om vores fysiske aktivitet har nogen sammenhæng med vores blodtryk. I kolonne B har vi det antal minutter, som 10 mænd på samme alder bruger dagligt i et fitnesscenter, og i kolonne C har vi deres systoliske blodtryk.

    For at finde Spearman-korrelationskoefficienten i Excel skal du udføre disse trin:

    1. Rangordning af dine data

      Da Spearman-korrelationen evaluerer sammenhængen mellem to variabler på baggrund af deres rang, skal du rangordne dine kildedata. Dette kan hurtigt gøres ved hjælp af Excel-funktionen RANK.AVG.

      For at rangordne den første variabel (fysisk aktivitet) skal du indtaste nedenstående formel i D2 og derefter trække den ned til D11:

      =RANK.AVG(B2,$B$2:$B$11,0)

      For at rangordne den anden variabel (blodtryk) skal du indsætte følgende formel i celle E2 og kopiere den ned i kolonnen:

      =RANK.AVG(C2,$C$2:$C$11,0)

      For at formlerne kan fungere korrekt, skal du sørge for at låse intervallerne med absolutte cellereferencer.

      På dette tidspunkt bør dine kildedata se ud som følger:

    2. Find Spearman-korrelationskoefficienten

      Når rangordene er fastlagt, kan vi nu bruge Excel CORREL-funktionen til at få Spearmans rho:

      =CORREL(D2:D11, E2:E11)

      Formlen giver en koefficient på -0,7576 (afrundet til 4 cifre), hvilket viser en ret stærk negativ korrelation og giver os mulighed for at konkludere, at jo mere en person motionerer, jo lavere er blodtrykket.

      Pearson-korrelationskoefficienten for den samme stikprøve (-0,7445) viser en lidt svagere korrelation, men stadig statistisk signifikant:

    Det gode ved denne metode er, at den er hurtig og nem og fungerer, uanset om der er uafgjort i ranglisten eller ej.

    Beregn Spearman-korrelationskoefficienten i Excel med traditionel formel

    Hvis du ikke er helt sikker på, at CORREL-funktionen har beregnet Spearmans rho korrekt, kan du kontrollere resultatet med den traditionelle formel, der bruges i statistik. Sådan gør du:

    1. Find forskellen mellem hvert par af rangeringsgrader ( d ) ved at trække den ene rang fra den anden:

      =D2-E2

      Denne formel går til F2 og kopieres derefter ned i kolonnen.

    2. Forhøj hver rangforskel til en potens af to ( d2 ):

      =F2^2

      Denne formel går til kolonne G.

    3. Læg de kvadrerede forskelle sammen:

      =SUM(G2:G11)

      Denne formel kan gå til en hvilken som helst tom celle, G12 i vores tilfælde.

      På følgende skærmbillede får du sandsynligvis en bedre forståelse af dataarrangementet:

    4. Afhængigt af, om dit datasæt har nogen bundne rækker eller ej, skal du bruge en af disse formler til at beregne Spearman-korrelationskoefficienten.

    I vores eksempel er der ingen uafgjort, så vi kan bruge en enklere formel:

    Med d2 er lig med 290, og n (antal observationer) er lig med 10, undergår formlen følgende transformationer:

    Resultatet er -0,75757575758, hvilket stemmer perfekt overens med den Spearman-korrelationskoefficient, der blev beregnet i det foregående eksempel.

    I Microsoft Excel kan ovenstående beregninger udføres med følgende ligning:

    =1-(6*G12/(10*(10^2-1)))

    Hvor G12 er summen af de kvadrerede rangforskelle (d2).

    Hvordan man laver Spearman-korrelation i Excel ved hjælp af en graf

    Korrelationskoefficienterne i Excel måler kun lineære (Pearson) eller monotone (Spearman) sammenhænge. Andre sammenhænge er dog mulige. Så uanset hvilken korrelation du foretager, er det altid en god idé at repræsentere sammenhængen mellem variablerne i en graf.

    For at tegne en korrelationsgraf for de rangordnede data skal du gøre følgende:

    1. Beregn rækkerne ved at bruge funktionen RANK.AVG som forklaret i dette eksempel.
    2. Vælg to kolonner med rangordene.
    3. Indsæt et XY-spredningsdiagram. Klik i den forbindelse på Spredning diagram på ikonet på Indsat under fanen, i fanen Chats gruppe.
    4. Tilføj en trendlinje til dit diagram. Den hurtigste måde er at klikke på Diagramelementer knap> Tilføj Trendline... .
    5. Vis R-kvadrat-værdien på diagrammet. Dobbeltklik på trendlinjen for at åbne ruden, skift til Trendline-muligheder fanen og vælg den Vis R-kvadrat-værdi på diagrammet boks.
    6. Vis flere cifre i R2-værdien for at opnå større nøjagtighed.

    Som resultat får du en visuel repræsentation af forholdet mellem rækkerne. Derudover får du den Bestemmelseskoefficient (R2), hvis kvadratrod er Pearson-korrelationskoefficienten (r). Men da du har plottet de rangordnede data, er denne Pearson-r intet andet end Spearmans rho.

    Bemærk: R-kvadrat er altid et positivt tal, og derfor vil den udledte Spearman-rangkorrelationskoefficient også altid være positiv. For at tilføje et passende tegn skal du blot se på linjen i din korrelationsgraf - en opadgående hældning angiver en positiv korrelation (plustegn), og en nedadgående hældning angiver en negativ korrelation (minustegn).

    I vores tilfælde er R2 lig med 0,5739210285. Brug SQRT-funktionen til at finde kvadratroden:

    =SQRT(0,5739210285)

    ...og du får den allerede velkendte koefficient på 0,75757575758.

    Den nedadgående hældning i grafen viser en negativ korrelation, så vi tilføjer minustegnet og får den korrekte Spearman-korrelationskoefficient på -0,75757575758.

    Sådan kan du beregne Spearman-rangkorrelationskoefficienten i Excel. Hvis du vil se nærmere på de eksempler, der er beskrevet i denne vejledning, er du velkommen til at downloade vores eksempelarbejdsbog nedenfor. Tak for din læsning og håber at se dig på vores blog i næste uge!

    Arbejdsbog til øvelser

    Spearman Rank Correlation i Excel (.xlsx-fil)

    Michael Brown er en dedikeret teknologientusiast med en passion for at forenkle komplekse processer ved hjælp af softwareværktøjer. Med mere end ti års erfaring i teknologibranchen har han finpudset sine færdigheder i Microsoft Excel og Outlook samt Google Sheets og Docs. Michaels blog er dedikeret til at dele sin viden og ekspertise med andre og giver nemme at følge tips og vejledninger til at forbedre produktiviteten og effektiviteten. Uanset om du er en erfaren professionel eller nybegynder, tilbyder Michaels blog værdifuld indsigt og praktiske råd til at få mest muligt ud af disse vigtige softwareværktøjer.