Inhaltsverzeichnis
Das Tutorial erklärt die Grundlagen der Spearman-Korrelation in einer einfachen Sprache und zeigt, wie man den Spearman-Rangkorrelationskoeffizienten in Excel berechnet.
Wenn Sie in Excel eine Korrelationsanalyse durchführen, werden Sie in den meisten Fällen mit der Pearson-Korrelation arbeiten. Da der Pearson-Korrelationskoeffizient jedoch nur eine lineare Beziehung zwischen zwei Variablen misst, eignet er sich nicht für alle Datentypen - Ihre Variablen können auf nichtlineare Weise stark miteinander verbunden sein und trotzdem einen Koeffizienten nahe Null aufweisen. In solchen Fällen können Sie die SpearmanRangkorrelation anstelle der Pearsonschen Korrelation.
Spearman-Korrelation - die Grundlagen
Die Spearman-Korrelation ist die nichtparametrische Version des Pearson-Korrelationskoeffizienten, der den Grad der Assoziation zwischen zwei Variablen auf der Grundlage ihrer Ränge misst.
Die Pearson-Produkt-Moment-Korrelation prüft die linear Beziehung zwischen zwei kontinuierlichen Variablen. Linear bedeutet eine Beziehung, wenn sich zwei Variablen mit einer konstanten Rate in dieselbe Richtung verändern.
Spearman-Rangkorrelation wertet die monoton Bei einer monotonen Beziehung neigen die Variablen auch dazu, sich gemeinsam zu verändern, aber nicht unbedingt mit einer konstanten Rate.
Wann wird die Spearman-Korrelation durchgeführt?
Die Spearman-Korrelationsanalyse ist in den folgenden Fällen zu verwenden, wenn die der Pearson-Korrelation zugrunde liegenden Annahmen nicht erfüllt sind:
- Wenn Ihre Daten eine nicht-linear Beziehung stehen oder nicht normal verteilt sind.
- Wenn mindestens eine Variable Ordinal Wenn Ihre Werte in der Reihenfolge "erster, zweiter, dritter..." angeordnet werden können, haben Sie es mit ordinalen Daten zu tun.
- Wenn es signifikante Ausreißer Im Gegensatz zur Pearson-Korrelation ist die Spearman-Korrelation unempfindlich gegenüber Ausreißern, da sie Berechnungen auf den Rängen durchführt, so dass der Unterschied zwischen den tatsächlichen Werten keine Bedeutung hat.
Sie können beispielsweise die Spearman-Korrelation verwenden, um die Antworten auf die folgenden Fragen zu finden:
- Machen sich Menschen mit einem höheren Bildungsniveau mehr Sorgen um die Umwelt?
- Hängt die Anzahl der Symptome eines Patienten mit seiner Bereitschaft zusammen, Medikamente zu nehmen?
Spearman-Korrelationskoeffizient
In der Statistik ist die Spearman-Korrelationskoeffizient wird entweder dargestellt durch r s oder der griechische Buchstabe ρ ("rho"), weshalb es auch oft als Spearman's rho .
Der Spearman-Rangkorrelationskoeffizient misst sowohl die Stärke als auch die Richtung der Beziehung zwischen den Rängen der Daten. Er kann einen beliebigen Wert zwischen -1 und 1 annehmen, und je näher der absolute Wert des Koeffizienten an 1 liegt, desto stärker ist die Beziehung:
- 1 ist eine perfekte positive Korrelation
- -1 ist eine perfekte negative Korrelation
- 0 ist keine Korrelation
Formel für die Rangkorrelation nach Spearman
Je nachdem, ob es in der Rangfolge Gleichheiten gibt oder nicht (derselbe Rang wird zwei oder mehr Beobachtungen zugewiesen), kann der Spearman-Korrelationskoeffizient mit einer der folgenden Formeln berechnet werden.
Wenn es keine gebundenen Ränge ist eine einfachere Formel ausreichend:
Wo:
- d i ist die Differenz zwischen einem Paar von Rängen
- n ist die Anzahl der Beobachtungen
Zum Umgang mit gleiche Rangfolge muss die vollständige Version der Spearman-Korrelationsformel verwendet werden, die eine leicht modifizierte Version von Pearson's r ist:
Wo:
- R(x) und R(y) sind die Ränge der x und y Variablen
- R(x) und R(y) sind die mittleren Ränge
So berechnen Sie die Spearman-Korrelation in Excel mit der Funktion CORREL
Leider verfügt Excel nicht über eine eingebaute Funktion zur Berechnung des Spearman-Rangkorrelationskoeffizienten. Das bedeutet jedoch nicht, dass Sie sich mit den obigen Formeln das Hirn zermartern müssen. Wenn wir Excel ein wenig manipulieren, können wir eine viel einfachere Methode für die Spearman-Korrelation finden.
Versuchen wir zum Beispiel herauszufinden, ob unsere körperliche Aktivität in irgendeiner Weise mit unserem Blutdruck zusammenhängt. In Spalte B steht die Anzahl der Minuten, die 10 Männer gleichen Alters täglich in einem Fitnessstudio verbringen, und in Spalte C steht ihr systolischer Blutdruck.
Führen Sie die folgenden Schritte aus, um den Spearman-Korrelationskoeffizienten in Excel zu ermitteln:
- Rangfolge Ihrer Daten
Da die Spearman-Korrelation die Assoziationen zwischen zwei Variablen auf der Grundlage ihres Ranges bewertet, müssen Sie Ihre Quelldaten in eine Rangfolge bringen, was mit der Excel-Funktion RANK.AVG schnell geschehen kann.
Um die erste Variable (körperliche Aktivität) in eine Rangfolge zu bringen, geben Sie die folgende Formel in D2 ein und ziehen Sie sie dann nach unten auf D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Um die zweite Variable (Blutdruck) in eine Rangfolge zu bringen, geben Sie die folgende Formel in Zelle E2 ein und kopieren sie in die Spalte:
=RANK.AVG(C2,$C$2:$C$11,0)
Damit die Formeln korrekt funktionieren, stellen Sie bitte sicher, dass die Bereiche mit absoluten Zellbezügen gesperrt sind.
Zu diesem Zeitpunkt sollten Ihre Quelldaten in etwa so aussehen:
- Spearman-Korrelationskoeffizient ermitteln
Mit den ermittelten Rängen können wir nun die Excel-Funktion CORREL verwenden, um das Spearman'sche rho zu ermitteln:
=CORREL(D2:D11, E2:E11)
Die Formel ergibt einen Koeffizienten von -0,7576 (gerundet auf 4 Stellen), was eine ziemlich starke negative Korrelation zeigt und den Schluss zulässt, dass der Blutdruck einer Person umso niedriger ist, je mehr sie sich bewegt.
Der Pearson-Korrelationskoeffizient für dieselbe Stichprobe (-0,7445) zeigt eine etwas schwächere, aber immer noch statistisch signifikante Korrelation:
Das Schöne an dieser Methode ist, dass sie schnell und einfach ist und unabhängig davon funktioniert, ob es in der Rangliste Gleichstände gibt oder nicht.
Berechnung des Spearman-Korrelationskoeffizienten in Excel mit der traditionellen Formel
Wenn Sie sich nicht ganz sicher sind, ob die Funktion CORREL das Spearman'sche rho richtig berechnet hat, können Sie das Ergebnis mit der traditionellen Formel aus der Statistik überprüfen, und zwar folgendermaßen
- Ermitteln Sie die Differenz zwischen jedem Paar von Rängen ( d ) durch Subtraktion eines Ranges vom anderen:
=D2-E2
Diese Formel wird in F2 gespeichert und dann nach unten in die Spalte kopiert.
- Erhöhen Sie jede Rangdifferenz auf die Potenz von zwei ( d2 ):
=F2^2
Diese Formel steht in Spalte G.
- Addieren Sie die quadrierten Differenzen:
=SUMME(G2:G11)
Diese Formel kann in eine beliebige leere Zelle, in unserem Fall G12, eingegeben werden.
Anhand des folgenden Screenshots können Sie die Anordnung der Daten wahrscheinlich besser verstehen:
- Je nachdem, ob Ihr Datensatz gebundene Ränge aufweist oder nicht, verwenden Sie eine der folgenden Formeln, um den Spearman-Korrelationskoeffizienten zu berechnen.
In unserem Beispiel gibt es keine Unentschieden, so dass wir mit einer einfacheren Formel arbeiten können:
Mit d2 gleich 290, und n (Anzahl der Beobachtungen) gleich 10 ist, erfährt die Formel folgende Umformungen:
Als Ergebnis erhält man -0,757575758, was genau mit dem im vorherigen Beispiel berechneten Spearman-Korrelationskoeffizienten übereinstimmt.
In Microsoft Excel können die obigen Berechnungen mit der folgenden Gleichung durchgeführt werden:
=1-(6*G12/(10*(10^2-1)))
Dabei ist G12 die Summe der quadrierten Rangunterschiede (d2).
Wie man die Spearman-Korrelation in Excel mit Hilfe eines Diagramms erstellt
Die Korrelationskoeffizienten in Excel messen nur lineare (Pearson) oder monotone (Spearman) Beziehungen. Es sind jedoch auch andere Assoziationen möglich. Unabhängig davon, welche Korrelation Sie durchführen, ist es immer sinnvoll, die Beziehung zwischen den Variablen in einem Diagramm darzustellen.
Um ein Korrelationsdiagramm für die eingestuften Daten zu erstellen, müssen Sie Folgendes tun:
- Berechnen Sie die Ränge mit Hilfe der Funktion RANK.AVG, wie in diesem Beispiel erläutert.
- Markieren Sie zwei Spalten mit den Rängen.
- Fügen Sie ein XY-Punktdiagramm ein, indem Sie auf die Schaltfläche Streuung Karte Symbol auf der Einlage auf der Registerkarte Chats Gruppe.
- Fügen Sie Ihrem Diagramm eine Trendlinie hinzu, indem Sie auf die Schaltfläche Diagramm-Elemente Taste> Trendlinie hinzufügen... .
- Zeigen Sie den R-Quadrat-Wert im Diagramm an. Doppelklicken Sie auf die Trendlinie, um das Fenster zu öffnen, und wechseln Sie in den Bereich Trendlinien-Optionen und wählen Sie die Registerkarte R-Quadrat-Wert anzeigen auf der Karte Box.
- Zeigen Sie mehr Ziffern im R2-Wert an, um die Genauigkeit zu erhöhen.
Als Ergebnis erhalten Sie eine visuelle Darstellung des Verhältnisses zwischen den Rängen. Zusätzlich erhalten Sie die Bestimmungskoeffizient (R2), dessen Quadratwurzel der Pearson-Korrelationskoeffizient (r) ist. Da Sie aber die Daten in einer Rangfolge aufgetragen haben, ist dieses Pearson's r nichts anderes als Spearman's rho.
Hinweis: R-Quadrat ist immer eine positive Zahl, daher ist auch der abgeleitete Spearman-Rangkorrelationskoeffizient immer positiv. Um ein entsprechendes Vorzeichen hinzuzufügen, betrachten Sie einfach die Linie in Ihrem Korrelationsdiagramm - eine steigende Steigung bedeutet eine positive Korrelation (Pluszeichen) und eine fallende Steigung bedeutet eine negative Korrelation (Minuszeichen).
In unserem Fall ist R2 gleich 0,5739210285. Verwenden Sie die Funktion SQRT, um die Quadratwurzel zu ermitteln:
=SQRT(0.5739210285)
...und Sie erhalten den bereits bekannten Koeffizienten von 0,757575758.
Die Abwärtsneigung im Diagramm weist eine negative Korrelation auf, also fügen wir das Minuszeichen hinzu und erhalten den korrekten Spearman-Korrelationskoeffizienten von -0,757575758.
So können Sie den Spearman-Rangkorrelationskoeffizienten in Excel berechnen. Wenn Sie sich die in diesem Tutorial besprochenen Beispiele genauer ansehen möchten, können Sie gerne unsere Beispiel-Arbeitsmappe herunterladen. Ich danke Ihnen für die Lektüre und hoffe, Sie nächste Woche in unserem Blog begrüßen zu dürfen!
Arbeitsbuch für die Praxis
Spearman-Rangkorrelation in Excel (.xlsx-Datei)