Korrelation in Excel: Koeffizient, Matrix und Diagramm

  • Teile Das
Michael Brown

Das Tutorial erklärt die Grundlagen der Korrelation in Excel, zeigt, wie man einen Korrelationskoeffizienten berechnet, eine Korrelationsmatrix erstellt und die Ergebnisse interpretiert.

Eine der einfachsten statistischen Berechnungen, die Sie in Excel durchführen können, ist die Korrelation. Obwohl sie einfach ist, ist sie sehr nützlich, um die Beziehungen zwischen zwei oder mehr Variablen zu verstehen. Microsoft Excel bietet alle notwendigen Werkzeuge für die Durchführung von Korrelationsanalysen, Sie müssen nur wissen, wie man sie benutzt.

    Korrelation in Excel - die Grundlagen

    Korrelation ist ein Maß, das die Stärke und Richtung einer Beziehung zwischen zwei Variablen beschreibt und wird häufig in der Statistik, den Wirtschafts- und Sozialwissenschaften für Budgets, Geschäftspläne usw. verwendet.

    Die Methode, mit der untersucht wird, wie eng die Variablen miteinander verbunden sind, heißt Korrelationsanalyse .

    Hier sind einige Beispiele für eine starke Korrelation:

    • Die Anzahl der Kalorien, die Sie essen, und Ihr Gewicht (positive Korrelation)
    • Die Außentemperatur und Ihre Heizkosten (negative Korrelation)

    Und hier die Beispiele von Daten, die eine schwache oder keine Korrelation aufweisen:

    • Name der Katze und ihr Lieblingsfutter
    • Die Farbe deiner Augen und deine Größe

    Ein wesentlicher Punkt bei der Korrelation ist, dass sie nur zeigt, wie eng zwei Variablen miteinander verbunden sind. Die Korrelation impliziert jedoch keine Kausalität. Die Tatsache, dass Änderungen in einer Variablen mit Änderungen in der anderen Variablen verbunden sind, bedeutet nicht, dass eine Variable tatsächlich die Änderung der anderen verursacht.

    Wenn Sie daran interessiert sind, Kausalität zu erfahren und Vorhersagen zu treffen, gehen Sie einen Schritt weiter und führen Sie eine lineare Regressionsanalyse durch.

    Korrelationskoeffizient in Excel - Interpretation der Korrelation

    Das numerische Maß für den Grad der Assoziation zwischen zwei kontinuierlichen Variablen wird als Korrelationskoeffizient (r).

    Der Koeffizientenwert liegt immer zwischen -1 und 1 und misst sowohl die Stärke als auch die Richtung der linearen Beziehung zwischen den Variablen.

    Stärke

    Je größer der absolute Wert des Koeffizienten ist, desto stärker ist die Beziehung:

    • Die Extremwerte -1 und 1 zeigen eine perfekte lineare Beziehung an, wenn alle Datenpunkte auf eine Linie fallen. In der Praxis ist eine perfekte Korrelation, ob positiv oder negativ, selten zu beobachten.
    • Ein Koeffizient von 0 bedeutet, dass keine lineare Beziehung zwischen den Variablen besteht, was bei zwei Gruppen von Zufallszahlen wahrscheinlich der Fall ist.
    • Werte zwischen 0 und +1/-1 stehen für eine Skala von schwachen, mäßigen und starken Beziehungen. als r näher an -1 oder 1 liegt, nimmt die Stärke der Beziehung zu.

    Richtung

    Das Vorzeichen des Koeffizienten (plus oder minus) gibt die Richtung der Beziehung an.

    • Positiv Die Koeffizienten stellen eine direkte Korrelation dar und ergeben in einem Diagramm eine steigende Tendenz - wenn eine Variable zunimmt, nimmt auch die andere zu und umgekehrt.
    • Negativ Die Koeffizienten stellen eine umgekehrte Korrelation dar und ergeben eine Abwärtsneigung in einem Diagramm - wenn eine Variable zunimmt, nimmt die andere Variable tendenziell ab.

    Zum besseren Verständnis werfen Sie bitte einen Blick auf die folgenden Korrelationsdiagramme:

    • Ein Koeffizient von 1 bedeutet eine perfekte positive Beziehung - wenn eine Variable steigt, steigt die andere proportional dazu.
    • Ein Koeffizient von -1 bedeutet eine perfekte negative Beziehung - wenn eine Variable zunimmt, nimmt die andere proportional ab.
    • Ein Koeffizient von 0 bedeutet, dass keine Beziehung zwischen zwei Variablen besteht - die Datenpunkte sind über das gesamte Diagramm verstreut.

    Pearson-Korrelation

    In der Statistik werden je nach Art der Daten, mit denen Sie arbeiten, verschiedene Arten von Korrelationen gemessen. In diesem Tutorial konzentrieren wir uns auf die am häufigsten vorkommende.

    Pearson-Korrelation ist der vollständige Name der Pearson-Produkt-Moment-Korrelation (PPMC), wird verwendet, um zu bewerten linear Beziehungen zwischen Daten, wenn eine Änderung der einen Variablen mit einer proportionalen Änderung der anderen Variablen verbunden ist. Einfach ausgedrückt, beantwortet die Pearson-Korrelation die Frage: Können die Daten auf einer Linie dargestellt werden?

    In der Statistik ist dies der gängigste Korrelationstyp, und wenn Sie es mit einem "Korrelationskoeffizienten" ohne weitere Qualifikation zu tun haben, handelt es sich höchstwahrscheinlich um den Pearson-Koeffizienten.

    Hier ist die am häufigsten verwendete Formel zur Ermittlung des Pearson-Korrelationskoeffizienten, auch genannt Pearson's R :

    Gelegentlich stößt man auf zwei weitere Formeln zur Berechnung der Stichprobenkorrelationskoeffizient (r) und die Korrelationskoeffizient der Bevölkerung (ρ).

    Wie man die Pearson-Korrelation in Excel durchführt

    Die manuelle Berechnung des Pearson-Korrelationskoeffizienten ist mit einer Menge Mathematik verbunden. Glücklicherweise hat Microsoft Excel die Sache sehr einfach gemacht. Je nach Datensatz und Zielsetzung können Sie eine der folgenden Techniken anwenden:

    • Ermitteln Sie den Korrelationskoeffizienten nach Pearson mit der Funktion CORREL.
    • Erstellen Sie eine Korrelationsmatrix, indem Sie eine Datenanalyse durchführen.
    • Finden Sie mehrere Korrelationskoeffizienten mit einer Formel.
    • Zeichnen Sie ein Korrelationsdiagramm, um die Datenbeziehung visuell darzustellen.

    Wie berechnet man den Korrelationskoeffizienten in Excel?

    Um einen Korrelationskoeffizienten von Hand zu berechnen, müssten Sie diese langwierige Formel verwenden. Um den Korrelationskoeffizienten in Excel zu ermitteln, nutzen Sie die Funktionen CORREL oder PEARSON und erhalten das Ergebnis in einem Bruchteil einer Sekunde.

    Excel-Funktion CORREL

    Die Funktion CORREL gibt den Pearson-Korrelationskoeffizienten für zwei Wertepaare zurück. Ihre Syntax ist sehr einfach und überschaubar:

    CORREL(array1, array2)

    Wo:

    • Array1 ist der erste Bereich von Werten.
    • Array2 ist der zweite Bereich von Werten.

    Die beiden Arrays sollten die gleiche Länge haben.

    Angenommen, wir haben eine Reihe von unabhängigen Variablen ( x ) in B2:B13 und abhängige Variablen (y) in C2:C13, lautet unsere Korrelationskoeffizientenformel wie folgt:

    =CORREL(B2:B13, C2:C13)

    Oder wir können die Bereiche vertauschen und erhalten immer noch das gleiche Ergebnis:

    =CORREL(C2:C13, B2:B13)

    In jedem Fall zeigt die Formel eine starke negative Korrelation (etwa -0,97) zwischen der monatlichen Durchschnittstemperatur und der Zahl der verkauften Heizgeräte:

    3 Dinge, die Sie über die Funktion CORREL in Excel wissen sollten

    Um den Korrelationskoeffizienten in Excel erfolgreich zu berechnen, beachten Sie bitte diese 3 einfachen Fakten:

    • Wenn eine oder mehrere Zellen in einem Array Text, logische Werte oder Leerzeichen enthalten, werden diese Zellen ignoriert; Zellen mit Nullwerten werden berechnet.
    • Wenn die übergebenen Arrays unterschiedlich lang sind, wird ein #N/A-Fehler zurückgegeben.
    • Wenn eines der Arrays leer ist oder wenn die Standardabweichung ihrer Werte gleich Null ist, tritt ein #DIV/0!-Fehler auf.

    Excel-Funktion PEARSON

    Die Funktion PEARSON in Excel tut das Gleiche - sie berechnet den Pearson-Produkt-Moment-Korrelationskoeffizienten.

    PEARSON(array1, array2)

    Wo:

    • Array1 ist ein Bereich von unabhängigen Werten.
    • Array2 ist ein Bereich von abhängigen Werten.

    Da PEARSON und CORREL beide den linearen Korrelationskoeffizienten nach Pearson berechnen, sollten ihre Ergebnisse übereinstimmen, was in den neueren Versionen von Excel 2007 bis Excel 2019 im Allgemeinen auch der Fall ist.

    In Excel 2003 und früheren Versionen kann die Funktion PEARSON jedoch Rundungsfehler aufweisen, weshalb es in älteren Versionen empfehlenswert ist, CORREL anstelle von PEARSON zu verwenden.

    Bei unserem Beispieldatensatz zeigen beide Funktionen die gleichen Ergebnisse:

    =CORREL(B2:B13, C2:C13)

    =PARSON(B2:B13, C2:C13)

    Wie man eine Korrelationsmatrix in Excel mit Datenanalyse erstellt

    Wenn Sie Zusammenhänge zwischen mehr als zwei Variablen testen müssen, ist es sinnvoll, eine Korrelationsmatrix zu erstellen, die manchmal auch als multipler Korrelationskoeffizient .

    Die Korrelationsmatrix ist eine Tabelle, die die Korrelationskoeffizienten zwischen den Variablen am Schnittpunkt der entsprechenden Zeilen und Spalten anzeigt.

    Die Korrelationsmatrix in Excel wird mit der Funktion Korrelation Werkzeug aus dem Analyse-ToolPak Dieses Add-In steht in allen Versionen von Excel 2003 bis Excel 2019 zur Verfügung, ist aber nicht standardmäßig aktiviert. Wenn Sie es noch nicht aktiviert haben, führen Sie bitte jetzt die Schritte aus, die unter So aktivieren Sie das Datenanalyse-ToolPak in Excel beschrieben sind.

    Mit den Datenanalysewerkzeugen, die dem Excel-Menüband hinzugefügt wurden, sind Sie bereit, Korrelationsanalysen durchzuführen:

    1. In der rechten oberen Ecke des Daten tab> Analyse Gruppe, klicken Sie auf die Datenanalyse Taste.
    2. In der Datenanalyse wählen Sie im Dialogfenster Korrelation und klicken Sie auf OK.
    3. In der Korrelation konfigurieren Sie die Parameter auf diese Weise:
      • Klicken Sie im Eingabebereich und wählen Sie den Bereich mit Ihren Quelldaten, einschließlich der Spaltenüberschriften (in unserem Fall B1:D13).
      • In der Gruppiert nach Abschnitt, stellen Sie sicher, dass die Rubriken ausgewählt ist (vorausgesetzt, Ihre Quelldaten sind in Spalten gruppiert).
      • Wählen Sie die Etiketten in der ersten Zeile ankreuzen, wenn der ausgewählte Bereich Spaltenüberschriften enthält.
      • Wählen Sie die gewünschte Ausgabeoption. Um die Matrix auf demselben Blatt zu haben, wählen Sie Leistungsbereich und geben Sie den Verweis auf die Zelle ganz links an, in die die Matrix ausgegeben werden soll (A15 in diesem Beispiel).

    Wenn Sie fertig sind, klicken Sie auf die Schaltfläche OK Taste:

    Die Matrix der Korrelationskoeffizienten ist fertig und sollte in etwa so aussehen wie im nächsten Abschnitt gezeigt.

    Interpretation der Ergebnisse der Korrelationsanalyse

    In Ihrer Excel-Korrelationsmatrix können Sie die Koeffizienten am Schnittpunkt von Zeilen und Spalten finden. Wenn die Spalten- und Zeilenkoordinaten gleich sind, wird der Wert 1 ausgegeben.

    Im obigen Beispiel interessiert uns die Korrelation zwischen der abhängigen Variable (Anzahl der verkauften Heizungen) und zwei unabhängigen Variablen (durchschnittliche monatliche Temperatur und Werbekosten). Wir betrachten also nur die Zahlen am Schnittpunkt dieser Zeilen und Spalten, die in der folgenden Abbildung hervorgehoben sind:

    Der negative Koeffizient von -0,97 (gerundet auf 2 Dezimalstellen) zeigt eine starke umgekehrte Korrelation zwischen der monatlichen Temperatur und den Heizgeräteverkäufen - je höher die Temperatur ist, desto weniger Heizgeräte werden verkauft.

    Der positive Koeffizient von 0,97 (gerundet auf 2 Dezimalstellen) deutet auf einen starken direkten Zusammenhang zwischen dem Werbebudget und dem Umsatz hin - je mehr Geld Sie für Werbung ausgeben, desto höher ist der Umsatz.

    Mehrfachkorrelationsanalysen in Excel mit Formeln durchführen

    Der Aufbau der Korrelationstabelle mit dem Datenanalysewerkzeug ist einfach. Diese Matrix ist jedoch statisch, d. h. Sie müssen die Korrelationsanalyse jedes Mal neu durchführen, wenn sich die Quelldaten ändern.

    Die gute Nachricht ist, dass Sie eine ähnliche Korrelationstabelle leicht selbst erstellen können, und diese Matrix wird bei jeder Änderung der Quellwerte automatisch aktualisiert.

    Verwenden Sie dazu diese allgemeine Formel:

    CORREL(OFFSET( erster_variabler_bereich , 0, ROWS($1:1)-1), OFFSET( erster_variabler_bereich , 0, SPALTEN($A:A)-1))

    Wichtiger Hinweis: Damit die Formel funktioniert, sollten Sie den ersten Variablenbereich mit absoluten Zellbezügen sperren.

    In unserem Fall ist der erste Variablenbereich $B$2:$B$13 (bitte beachten Sie das $-Zeichen, das den Bezug festhält), und unsere Korrelationsformel hat diese Form:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Mit der fertigen Formel können wir nun eine Korrelationsmatrix konstruieren:

    1. Geben Sie in die erste Zeile und die erste Spalte der Matrix die Bezeichnungen der Variablen in der gleichen Reihenfolge ein, wie sie in Ihrer Ausgangstabelle erscheinen (siehe Abbildung unten).
    2. Geben Sie die obige Formel in die Zelle ganz links ein (in unserem Fall B16).
    3. Ziehen Sie die Formel nach unten und nach rechts, um sie in so viele Zeilen und Spalten wie nötig zu kopieren (in unserem Beispiel 3 Zeilen und 3 Spalten).

    Als Ergebnis erhalten wir die folgende Matrix mit mehreren Korrelationskoeffizienten. Bitte beachten Sie, dass die von unserer Formel zurückgegebenen Koeffizienten genau die gleichen sind wie die von Excel im vorherigen Beispiel ausgegebenen (die relevanten sind hervorgehoben):

    Wie diese Formel funktioniert

    Wie Sie bereits wissen, gibt die Excel-Funktion CORREL den Korrelationskoeffizienten für zwei von Ihnen angegebene Variablensätze zurück. Die größte Herausforderung besteht darin, die entsprechenden Bereiche in den entsprechenden Zellen der Matrix anzugeben. Dazu geben Sie nur den ersten Variablenbereich in die Formel ein und verwenden die folgenden Funktionen, um die erforderlichen Anpassungen vorzunehmen:

    • OFFSET - gibt einen Bereich zurück, der eine bestimmte Anzahl von Zeilen und Spalten von einem angegebenen Bereich entfernt ist.
    • ROWS und COLUMNS - geben die Anzahl der Zeilen bzw. Spalten in einem Bereich zurück. In unserer Korrelationsformel werden beide mit einem Ziel verwendet - die Anzahl der Spalten zu ermitteln, die vom Ausgangsbereich abweichen sollen. Dies wird durch die geschickte Verwendung absoluter und relativer Referenzen erreicht.

    Um die Logik besser zu verstehen, sehen wir uns an, wie die Formel die im Screenshot oben hervorgehobenen Koeffizienten berechnet.

    Betrachten wir zunächst die Formel in B18, die eine Korrelation zwischen der monatlichen Temperatur (B2:B13) und den verkauften Heizgeräten (D2:D13) herstellt:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    In der ersten OFFSET-Funktion wurde ROWS($1:1) in ROWS($1:3) umgewandelt, da die zweite Koordinate relativ ist, d. h. sie ändert sich auf der Grundlage der relativen Position der Zeile, in die die Formel kopiert wird (2 Zeilen nach unten). ROWS() gibt also 3 zurück, wovon wir 1 subtrahieren und einen Bereich erhalten, der sich 2 Spalten rechts vom Ausgangsbereich befindet, d. h. $D$2:$D$13 (Heizungsverkauf).

    Der zweite OFFSET ändert den angegebenen Bereich $B$2:$B$13 (Temperatur) nicht, da COLUMNS($A:A)-1 den Wert Null liefert.

    Als Ergebnis wird unsere lange Formel zu einem einfachen CORREL($D$2:$D$13, $B$2:$B$13) und liefert genau den gewünschten Koeffizienten.

    Die Formel in C18, die einen Korrelationskoeffizienten für die Werbekosten (C2:C13) und den Umsatz (D2:D13) berechnet, funktioniert auf ähnliche Weise:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Die erste OFFSET-Funktion ist absolut identisch mit der oben beschriebenen und gibt den Bereich von $D$2:$D$13 (Heizungsverkauf) zurück.

    Beim zweiten OFFSET ändert sich SPALTE($A:A)-1 in SPALTE($A:B)-1, da wir die Formel um eine Spalte nach rechts kopiert haben. Folglich erhält OFFSET einen Bereich, der eine Spalte rechts vom Ausgangsbereich liegt, d. h. $C$2:$C$13 (Werbekosten).

    Darstellung eines Korrelationsdiagramms in Excel

    Wenn Sie eine Korrelation in Excel durchführen, können Sie die Beziehungen zwischen Ihren Daten am besten visuell darstellen, indem Sie eine Punktwolke mit einer Trendlinie Und so geht's:

    1. Wählen Sie zwei Spalten mit numerischen Daten, einschließlich der Spaltenüberschriften. Die Reihenfolge der Spalten ist wichtig: die unabhängig sollte in der linken Spalte stehen, da diese Spalte auf der X-Achse aufgetragen werden soll; die Variable abhängig sollte in der rechten Spalte stehen, da sie auf der y-Achse aufgetragen wird.
    2. Auf der Einlage auf der Registerkarte Chats Gruppe, klicken Sie auf die Streuung Dadurch wird sofort ein XY-Punktdiagramm in Ihr Arbeitsblatt eingefügt.
    3. Klicken Sie mit der rechten Maustaste auf einen beliebigen Datenpunkt im Diagramm und wählen Sie Trendlinie hinzufügen... aus dem Kontextmenü.

    Eine detaillierte Schritt-für-Schritt-Anleitung finden Sie hier:

    • Wie man ein Streudiagramm in Excel erstellt
    • Hinzufügen einer Trendlinie zu einem Excel-Diagramm

    Für unseren Beispieldatensatz sehen die Korrelationsdiagramme wie in der folgenden Abbildung aus. Zusätzlich haben wir den R-Quadrat-Wert, auch als Bestimmungskoeffizient Dieser Wert gibt an, wie gut die Trendlinie mit den Daten übereinstimmt - je näher R2 bei 1 liegt, desto besser ist die Anpassung.

    Aus dem R2-Wert, der in Ihrem Streudiagramm angezeigt wird, können Sie leicht den Korrelationskoeffizienten berechnen:

    1. Um eine bessere Genauigkeit zu erzielen, sollten Sie Excel veranlassen, mehr Stellen im R-Quadrat-Wert anzuzeigen, als dies standardmäßig der Fall ist.
    2. Klicken Sie auf den R2-Wert im Diagramm, wählen Sie ihn mit der Maus aus und drücken Sie Strg + C, um ihn zu kopieren.
    3. Ermitteln Sie die Quadratwurzel von R2 entweder mit der Funktion SQRT oder indem Sie den kopierten R2-Wert mit 0,5 potenzieren.

    Der R2-Wert im zweiten Diagramm beträgt zum Beispiel 0,9174339392. Sie können also den Korrelationskoeffizienten finden für Werbung und Verkaufte Heizgeräte mit einer dieser Formeln:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Wie Sie sich vergewissern können, stimmen die so berechneten Koeffizienten genau mit den Korrelationskoeffizienten überein, die in den vorherigen Beispielen ermittelt wurden, außer dem Zeichen :

    Mögliche Probleme mit Korrelationen in Excel

    Die Pearson-Produkt-Moment-Korrelation zeigt nur eine linear Das bedeutet, dass Ihre Variablen auf eine andere, kurvilineare Weise stark miteinander verbunden sein können und der Korrelationskoeffizient trotzdem gleich oder nahe Null ist.

    Die Pearson-Korrelation ist nicht in der Lage zu unterscheiden abhängig und unabhängig Wenn wir zum Beispiel die Funktion CORREL verwenden, um den Zusammenhang zwischen der monatlichen Durchschnittstemperatur und der Anzahl der verkauften Heizgeräte zu ermitteln, erhalten wir einen Koeffizienten von -0,97, was auf eine hohe negative Korrelation hindeutet. Man könnte jedoch die Variablen austauschen und das gleiche Ergebnis erhalten. So könnte jemand zu dem Schluss kommen, dass ein höherer Verkauf von Heizgeräten zu einem Rückgang der Temperatur führt, was natürlich keinen Sinn macht.Achten Sie daher bei der Durchführung von Korrelationsanalysen in Excel auf die Daten, die Sie liefern.

    Außerdem ist die Pearson-Korrelation sehr empfindlich gegenüber Ausreißer Wenn Sie einen oder mehrere Datenpunkte haben, die sich stark vom Rest der Daten unterscheiden, erhalten Sie möglicherweise ein verzerrtes Bild der Beziehung zwischen den Variablen. In diesem Fall wäre es ratsam, stattdessen die Spearman-Rangkorrelation zu verwenden.

    So funktioniert die Korrelation in Excel. Wenn Sie sich die in diesem Tutorial besprochenen Beispiele genauer ansehen möchten, können Sie gerne unsere Beispiel-Arbeitsmappe herunterladen. Ich danke Ihnen für die Lektüre und hoffe, Sie nächste Woche in unserem Blog begrüßen zu dürfen!

    Arbeitsbuch für die Praxis

    Berechnung der Korrelation in Excel (.xlsx-Datei)

    Michael Brown ist ein begeisterter Technologie-Enthusiast mit einer Leidenschaft für die Vereinfachung komplexer Prozesse mithilfe von Softwaretools. Mit mehr als einem Jahrzehnt Erfahrung in der Technologiebranche hat er seine Fähigkeiten in Microsoft Excel und Outlook sowie Google Sheets und Docs verfeinert. Michaels Blog widmet sich dem Teilen seines Wissens und seiner Expertise mit anderen und bietet leicht verständliche Tipps und Tutorials zur Verbesserung von Produktivität und Effizienz. Egal, ob Sie ein erfahrener Profi oder ein Anfänger sind, Michaels Blog bietet wertvolle Einblicke und praktische Ratschläge, wie Sie diese wichtigen Softwaretools optimal nutzen können.