Inhaltsverzeichnis
Das Tutorial erklärt die Grundlagen der Regressionsanalyse und zeigt verschiedene Möglichkeiten, eine lineare Regression in Excel durchzuführen.
Stellen Sie sich vor: Sie haben eine Menge verschiedener Daten und sollen die Umsatzzahlen Ihres Unternehmens für das nächste Jahr vorhersagen. Sie haben Dutzende, vielleicht sogar Hunderte von Faktoren entdeckt, die die Zahlen beeinflussen können. Aber woher wissen Sie, welche wirklich wichtig sind? Führen Sie eine Regressionsanalyse in Excel durch. Sie wird Ihnen eine Antwort auf diese und viele weitere Fragen geben: Welche FaktorenWie eng hängen diese Faktoren miteinander zusammen? Und wie sicher können Sie sich bei den Vorhersagen sein?
Regressionsanalyse in Excel - die Grundlagen
In der statistischen Modellierung, Regressionsanalyse wird verwendet, um die Beziehungen zwischen zwei oder mehreren Variablen zu schätzen:
Abhängige Variable (alias Kriterium Variable) ist der Hauptfaktor, den Sie zu verstehen und vorherzusagen versuchen.
Unabhängige Variablen (alias Erläuterungen Variablen, oder Prädiktoren ) sind die Faktoren, die die abhängige Variable beeinflussen können.
Die Regressionsanalyse hilft Ihnen zu verstehen, wie sich die abhängige Variable verändert, wenn eine der unabhängigen Variablen variiert, und ermöglicht es, mathematisch zu bestimmen, welche dieser Variablen tatsächlich einen Einfluss hat.
Technisch gesehen basiert ein Regressionsanalysemodell auf der Quadratsumme Das Ziel eines Modells ist es, die kleinstmögliche Summe der Quadrate zu erhalten und eine Linie zu zeichnen, die den Daten am nächsten kommt.
In der Statistik wird zwischen einer einfachen und einer multiplen linearen Regression unterschieden. Einfache lineare Regression modelliert die Beziehung zwischen einer abhängigen Variablen und einer unabhängigen Variablen mit Hilfe einer linearen Funktion. Wenn Sie zwei oder mehr erklärende Variablen verwenden, um die abhängige Variable vorherzusagen, haben Sie es mit multiple lineare Regression Wenn die abhängige Variable als nichtlineare Funktion modelliert wird, weil die Datenbeziehungen nicht einer geraden Linie folgen, verwenden Sie nichtlineare Regression Der Schwerpunkt dieses Tutorials liegt auf einer einfachen linearen Regression.
Nehmen wir als Beispiel die Verkaufszahlen für Regenschirme für die letzten 24 Monate und ermitteln wir die durchschnittliche monatliche Niederschlagsmenge für denselben Zeitraum. Tragen Sie diese Informationen in ein Diagramm ein, und die Regressionslinie zeigt die Beziehung zwischen der unabhängigen Variablen (Niederschlag) und der abhängigen Variablen (Regenschirmverkauf):
Lineare Regressionsgleichung
Mathematisch ist eine lineare Regression durch diese Gleichung definiert:
y = bx + a + εWo:
- x ist eine unabhängige Variable.
- y ist eine abhängige Variable.
- a ist die Y-Achsenabschnitt das ist der erwartete Mittelwert von y wenn alle x In einem Regressionsdiagramm ist das der Punkt, an dem die Linie die Y-Achse kreuzt.
- b ist die Piste einer Regressionsgeraden, d. h. die Änderungsrate für y als x Änderungen.
- ε ist der zufällige Fehlerterm, d. h. die Differenz zwischen dem tatsächlichen Wert einer abhängigen Variablen und ihrem vorhergesagten Wert.
Die lineare Regressionsgleichung enthält immer einen Fehlerterm, da die Prädiktoren im wirklichen Leben nie vollkommen präzise sind. Einige Programme, darunter auch Excel, führen die Berechnung des Fehlerterms jedoch im Hintergrund durch. In Excel führen Sie die lineare Regression also mit der Funktion kleinste Quadrate Methode und Koeffizientensuche a und b derart, dass:
y = bx + aFür unser Beispiel sieht die lineare Regressionsgleichung wie folgt aus:
Verkaufte Regenschirme = b * Niederschlag + a
Es gibt eine Handvoll verschiedener Möglichkeiten, die a und b Die drei wichtigsten Methoden zur Durchführung einer linearen Regressionsanalyse in Excel sind:
- Regressionstool im Analyse-ToolPak enthalten
- Streudiagramm mit einer Trendlinie
- Lineare Regressionsformel
Nachfolgend finden Sie eine ausführliche Anleitung zu den einzelnen Methoden.
Durchführung einer linearen Regression in Excel mit Analysis ToolPak
In diesem Beispiel wird gezeigt, wie eine Regression in Excel mit Hilfe eines speziellen Tools durchgeführt werden kann, das im Add-In Analysis ToolPak enthalten ist.
Aktivieren Sie das Analysis ToolPak Add-In
Analysis ToolPak steht in allen Versionen von Excel 365 bis 2003 zur Verfügung, ist aber nicht standardmäßig aktiviert. Sie müssen es also manuell einschalten. So geht's:
- Klicken Sie in Ihrem Excel auf Datei > Optionen .
- In der Excel-Optionen wählen Sie im Dialogfenster Add-ins in der linken Seitenleiste, stellen Sie sicher, dass Excel-Zusatzmodule ausgewählt ist, in der Verwalten Sie und klicken Sie auf Weiter .
- In der Add-ins Dialogfeld, markieren Sie Analyse-Toolpak und klicken Sie auf OK :
Dadurch wird die Datenanalyse Werkzeuge zum Daten des Excel-Bandes.
Regressionsanalyse durchführen
In diesem Beispiel werden wir eine einfache lineare Regression in Excel durchführen. Wir haben eine Liste der durchschnittlichen monatlichen Niederschläge der letzten 24 Monate in Spalte B, die unsere unabhängige Variable (Prädiktor) ist, und die Anzahl der verkauften Regenschirme in Spalte C, die die abhängige Variable ist. Natürlich gibt es viele andere Faktoren, die den Verkauf beeinflussen können, aber im Moment konzentrieren wir uns nur auf diese beiden Variablen:
Führen Sie bei aktiviertem Analysis Toolpak die folgenden Schritte aus, um eine Regressionsanalyse in Excel durchzuführen:
- Auf der Daten auf der Registerkarte Analyse Gruppe, klicken Sie auf die Datenanalyse Taste.
- Wählen Sie Regression und klicken Sie OK .
- In der Regression konfigurieren Sie die folgenden Einstellungen:
- Wählen Sie die Eingabe Y Bereich das ist Ihr abhängige Variable In unserem Fall ist es der Verkauf von Regenschirmen (C1:C25).
- Wählen Sie die Eingabe X Bereich , d.h. Ihr unabhängige Variable In diesem Beispiel ist es die durchschnittliche monatliche Niederschlagsmenge (B1:B25).
Wenn Sie ein multiples Regressionsmodell erstellen, wählen Sie zwei oder mehr benachbarte Spalten mit unterschiedlichen unabhängigen Variablen aus.
- Prüfen Sie die Etiketten-Box wenn sich am oberen Ende der X- und Y-Bereiche Kopfzeilen befinden.
- Wählen Sie Ihr bevorzugtes Ausgabeoption, in unserem Fall ein neues Arbeitsblatt.
- Optional können Sie die Rückstände um die Differenz zwischen den vorhergesagten und den tatsächlichen Werten zu ermitteln.
- Klicken Sie auf OK und beobachten Sie die von Excel erstellte Ausgabe der Regressionsanalyse.
Interpretation der Ergebnisse der Regressionsanalyse
Wie Sie soeben gesehen haben, ist die Durchführung einer Regression in Excel einfach, da alle Berechnungen automatisch durchgeführt werden. Die Interpretation der Ergebnisse ist etwas kniffliger, da Sie wissen müssen, was sich hinter den einzelnen Zahlen verbirgt. Im Folgenden finden Sie eine Aufschlüsselung der 4 Hauptbestandteile der Regressionsanalyseausgabe.
Ausgabe der Regressionsanalyse: Zusammenfassende Ausgabe
Dieser Teil zeigt Ihnen, wie gut die berechnete lineare Regressionsgleichung zu Ihren Ausgangsdaten passt.
Hier erfahren Sie, was die einzelnen Informationen bedeuten:
Mehrere R Es ist das C orrelation Koeffizient Korrelationskoeffizient, der die Stärke einer linearen Beziehung zwischen zwei Variablen misst. Der Korrelationskoeffizient kann einen beliebigen Wert zwischen -1 und 1 annehmen, und sein absoluter Wert gibt die Stärke der Beziehung an. Je größer der absolute Wert, desto stärker ist die Beziehung:
- 1 bedeutet eine starke positive Beziehung
- -1 bedeutet eine stark negative Beziehung
- 0 bedeutet überhaupt keine Beziehung
R-Quadrat Es ist die Bestimmungskoeffizient Er gibt an, wie viele Punkte auf die Regressionsgerade fallen. Der R2-Wert wird aus der Summe der Quadrate berechnet, genauer gesagt aus der Summe der quadrierten Abweichungen der ursprünglichen Daten vom Mittelwert.
In unserem Beispiel beträgt R2 0,91 (gerundet auf 2 Stellen), was sehr gut ist. Das bedeutet, dass 91 % unserer Werte in das Regressionsanalysemodell passen. Mit anderen Worten: 91 % der abhängigen Variablen (y-Werte) werden durch die unabhängigen Variablen (x-Werte) erklärt. Im Allgemeinen gilt ein R-Quadrat von 95 % oder mehr als gute Anpassung.
Bereinigtes R-Quadrat Es ist die R-Quadrat bereinigt um die Anzahl der unabhängigen Variablen im Modell. Sie sollten diesen Wert anstelle von R-Quadrat für die multiple Regressionsanalyse.
Standardfehler Während R2 den Prozentsatz der Varianz der abhängigen Variablen darstellt, der durch das Modell erklärt wird, ist der Standardfehler ein absolutes Maß, das den durchschnittlichen Abstand der Datenpunkte von der Regressionsgleichung angibt.Linie.
Beobachtungen Es ist einfach die Anzahl der Beobachtungen in Ihrem Modell.
Ergebnis der Regressionsanalyse: ANOVA
Der zweite Teil der Ausgabe ist die Varianzanalyse (ANOVA):
Im Wesentlichen wird die Summe der Quadrate in einzelne Komponenten aufgeteilt, die Aufschluss über die Variabilität des Regressionsmodells geben:
- df ist die Anzahl der Freiheitsgrade, die mit den Varianzquellen verbunden sind.
- SS Je kleiner der Rest-SS im Vergleich zum Gesamt-SS ist, desto besser passt Ihr Modell zu den Daten.
- MS ist das mittlere Quadrat.
- F ist die F-Statistik bzw. der F-Test für die Nullhypothese, mit der die allgemeine Signifikanz des Modells geprüft wird.
- Signifikanz F ist der P-Wert von F.
Der ANOVA-Teil wird nur selten für eine einfache lineare Regressionsanalyse in Excel verwendet, aber Sie sollten sich die letzte Komponente unbedingt genau ansehen. Die Signifikanz F Wert gibt Aufschluss darüber, wie zuverlässig (statistisch signifikant) Ihre Ergebnisse sind. Liegt die Signifikanz F unter 0,05 (5 %), ist Ihr Modell in Ordnung. Ist sie größer als 0,05, sollten Sie besser eine andere unabhängige Variable wählen.
Ergebnis der Regressionsanalyse: Koeffizienten
Dieser Abschnitt enthält spezifische Informationen zu den Komponenten Ihrer Analyse:
Die nützlichste Komponente in diesem Abschnitt ist Koeffizienten Es ermöglicht Ihnen, eine lineare Regressionsgleichung in Excel zu erstellen:
y = bx + aFür unseren Datensatz, bei dem y die Anzahl der verkauften Schirme und x die durchschnittliche monatliche Niederschlagsmenge ist, lautet unsere lineare Regressionsformel wie folgt:
Y = Niederschlagskoeffizient * x + Schnittpunkt
Ausgestattet mit den auf drei Dezimalstellen gerundeten Werten von a und b, ergibt sich daraus:
Y=0,45*x-19,074
Wenn beispielsweise die durchschnittliche monatliche Niederschlagsmenge 82 mm beträgt, würde der Umsatz mit Regenschirmen etwa 17,8 betragen:
0.45*82-19.074=17.8
Auf ähnliche Weise können Sie herausfinden, wie viele Regenschirme bei jeder anderen von Ihnen angegebenen monatlichen Niederschlagsmenge (Variable x) verkauft werden.
Ergebnis der Regressionsanalyse: Residuen
Vergleicht man die geschätzte und die tatsächliche Anzahl der verkauften Regenschirme, die der monatlichen Niederschlagsmenge von 82 mm entsprechen, so stellt man fest, dass diese Zahlen leicht voneinander abweichen:
- Geschätzt: 17,8 (oben berechnet)
- Tatsächlich: 15 (Zeile 2 der Quelldaten)
Warum ist das so? Weil unabhängige Variablen nie perfekte Prädiktoren für die abhängigen Variablen sind. Und die Residuen können Ihnen helfen zu verstehen, wie weit die tatsächlichen Werte von den vorhergesagten Werten entfernt sind:
Für den ersten Datenpunkt (82 mm Niederschlag) beträgt das Residuum etwa -2,8. Wir addieren also diese Zahl zum vorhergesagten Wert und erhalten den tatsächlichen Wert: 17,8 - 2,8 = 15.
Erstellen eines Diagramms für eine lineare Regression in Excel
Wenn Sie die Beziehung zwischen den beiden Variablen schnell visualisieren möchten, zeichnen Sie ein lineares Regressionsdiagramm. Das ist sehr einfach! So geht's:
- Markieren Sie die beiden Spalten mit Ihren Daten, einschließlich der Überschriften.
- Auf der Einlage auf der Registerkarte Chats Gruppe, klicken Sie auf die Punktediagramm und wählen Sie das Symbol Streuung Vorschaubild (das erste):
Dadurch wird ein Streudiagramm in Ihr Arbeitsblatt eingefügt, das dieser Darstellung ähnelt:
- Nun müssen wir die Regressionslinie der kleinsten Quadrate zeichnen. Klicken Sie dazu mit der rechten Maustaste auf einen beliebigen Punkt und wählen Sie Trendlinie hinzufügen... aus dem Kontextmenü.
- Wählen Sie im rechten Bereich die Option Linear Trendlinienform und, optional, Überprüfung Gleichung im Diagramm anzeigen um Ihre Regressionsformel zu erhalten:
Wie Sie vielleicht bemerken, ist die Regressionsgleichung, die Excel für uns erstellt hat, dieselbe wie die lineare Regressionsformel, die wir auf der Grundlage der Koeffizientenausgabe erstellt haben.
- Wechseln Sie zum Füllen & Linie Sie können zum Beispiel eine andere Linienfarbe wählen und eine durchgezogene Linie anstelle einer gestrichelten Linie verwenden (wählen Sie durchgezogene Linie in der Registerkarte Armaturenbrett Typ Box):
Zu diesem Zeitpunkt sieht Ihr Diagramm bereits wie ein anständiges Regressionsdiagramm aus:
Dennoch sollten Sie vielleicht noch einige Verbesserungen vornehmen:
- Ziehen Sie die Gleichung dorthin, wo Sie es für richtig halten.
- Achsentitel hinzufügen ( Diagramm-Elemente Taste> Achsen-Titel ).
- Wenn Ihre Datenpunkte wie in diesem Beispiel in der Mitte der horizontalen und/oder vertikalen Achse beginnen, sollten Sie den übermäßigen Weißraum beseitigen. Der folgende Tipp erklärt, wie das geht: Skalieren Sie die Diagrammachsen, um den Weißraum zu reduzieren.
Und so sieht unser verbessertes Regressionsdiagramm aus:
Wichtiger Hinweis: Im Regressionsdiagramm sollte die unabhängige Variable immer auf der X-Achse und die abhängige Variable auf der Y-Achse liegen. Wenn Ihr Diagramm in umgekehrter Reihenfolge gezeichnet wird, tauschen Sie die Spalten in Ihrem Arbeitsblatt aus und zeichnen Sie das Diagramm neu. Wenn Sie die Quelldaten nicht neu anordnen dürfen, können Sie die X- und Y-Achsen direkt in einem Diagramm austauschen.
Regression in Excel mit Formeln durchführen
Microsoft Excel verfügt über einige statistische Funktionen, die Ihnen bei der Durchführung einer linearen Regressionsanalyse helfen können, z. B. LINEST, SLOPE, INTERCEPT und CORREL.
Die Funktion LINEST verwendet die Regressionsmethode der kleinsten Quadrate, um eine gerade Linie zu berechnen, die die Beziehung zwischen Ihren Variablen am besten erklärt, und gibt ein Array zurück, das diese Linie beschreibt. Eine ausführliche Erläuterung der Syntax der Funktion finden Sie in diesem Tutorial. Lassen Sie uns zunächst nur eine Formel für unseren Beispieldatensatz erstellen:
=LINEST(C2:C25, B2:B25)
Da die Funktion LINEST ein Array von Werten zurückgibt, müssen Sie sie als Array-Formel eingeben. Markieren Sie zwei benachbarte Zellen in derselben Zeile, in unserem Fall E2:F2, geben Sie die Formel ein und drücken Sie Strg + Umschalt + Eingabe, um sie abzuschließen.
Die Formel gibt den b Koeffizient (E1) und der a Konstante (F1) für die bereits bekannte lineare Regressionsgleichung:
y = bx + a
Wenn Sie die Verwendung von Array-Formeln in Ihren Arbeitsblättern vermeiden, können Sie Folgendes berechnen a und b individuell mit regelmäßigen Formeln:
Ermitteln des Y-Achsenabschnitts (a):
=ABSCHNITT(C2:C25, B2:B25)
Ermitteln Sie die Steigung (b):
=STEILHEIT(C2:C25, B2:B25)
Außerdem finden Sie die Korrelationskoeffizient ( Mehrere R in der zusammenfassenden Ausgabe der Regressionsanalyse), die angibt, wie stark die beiden Variablen miteinander verbunden sind:
=CORREL(B2:B25,C2:C25)
Der folgende Screenshot zeigt alle diese Excel-Regressionsformeln in Aktion:
Tipp: Wenn Sie zusätzliche Statistiken für Ihre Regressionsanalyse erhalten möchten, verwenden Sie die Funktion LINEST mit der Option s tats auf TRUE gesetzt, wie in diesem Beispiel gezeigt.
So führen Sie eine lineare Regression in Excel durch. Beachten Sie jedoch, dass Microsoft Excel kein statistisches Programm ist. Wenn Sie eine Regressionsanalyse auf professionellem Niveau durchführen möchten, sollten Sie eine gezielte Software wie XLSTAT, RegressIt, etc. verwenden.
Um einen genaueren Blick auf unsere linearen Regressionsformeln und andere in diesem Tutorial besprochene Techniken zu werfen, können Sie gerne unsere Beispiel-Arbeitsmappe herunterladen. Vielen Dank fürs Lesen!
Arbeitsbuch für die Praxis
Regressionsanalyse in Excel - Beispiele (.xlsx-Datei)