Analiza regresji liniowej w programie Excel

  • Udostępnij To
Michael Brown

Tutorial wyjaśnia podstawy analizy regresji i pokazuje kilka różnych sposobów na wykonanie regresji liniowej w Excelu.

Wyobraź sobie taką sytuację: otrzymujesz mnóstwo różnych danych i masz za zadanie przewidzieć przyszłoroczne wyniki sprzedaży Twojej firmy. Odkryłeś dziesiątki, a może nawet setki czynników, które mogą mieć wpływ na te liczby. Ale skąd masz wiedzieć, które z nich są naprawdę ważne? Uruchom analizę regresji w Excelu. Da Ci ona odpowiedź na to i wiele innych pytań: Jakie czynnikiznaczenie, a które można zignorować? Jak ściśle te czynniki są ze sobą powiązane? I jaką pewność można mieć co do przewidywań?

    Analiza regresji w Excelu - podstawy

    W modelowaniu statystycznym, analiza regresji służy do szacowania zależności między dwiema lub więcej zmiennymi:

    Zmienna zależna (aka. kryterium zmienna) jest głównym czynnikiem, który próbujesz zrozumieć i przewidzieć.

    Zmienne niezależne (aka. wyjaśnienie zmienne, lub predyktory ) to czynniki, które mogą wpływać na zmienną zależną.

    Analiza regresji pomaga zrozumieć, jak zmienia się zmienna zależna, gdy zmienia się jedna ze zmiennych niezależnych i pozwala matematycznie określić, która z tych zmiennych naprawdę ma wpływ.

    Technicznie rzecz biorąc, model analizy regresji opiera się na. suma kwadratów , czyli matematyczny sposób na znalezienie rozproszenia punktów danych. Celem modelu jest uzyskanie jak najmniejszej sumy kwadratów i narysowanie linii najbardziej zbliżonej do danych.

    W statystyce rozróżniają prostą i wielokrotną regresję liniową. Prosta regresja liniowa modeluje związek między zmienną zależną a jedną zmienną niezależną za pomocą funkcji liniowej. Jeśli używasz dwóch lub więcej zmiennych objaśniających do przewidywania zmiennej zależnej, masz do czynienia z wielokrotna regresja liniowa Jeżeli zmienna zależna jest modelowana jako funkcja nieliniowa, ponieważ zależności między danymi nie są linią prostą, należy użyć regresja nieliniowa Zamiast tego, w tym tutorialu skupimy się na prostej regresji liniowej.

    Jako przykład weźmy dane dotyczące sprzedaży parasoli z ostatnich 24 miesięcy i poznajmy średnie miesięczne opady w tym samym okresie. Umieśćmy te informacje na wykresie, a linia regresji pokaże związek między zmienną niezależną (opady) a zmienną zależną (sprzedaż parasoli):

    Równanie regresji liniowej

    Matematycznie, regresja liniowa jest określona tym równaniem:

    y = bx + a + ε

    Gdzie:

    • x jest zmienną niezależną.
    • y jest zmienną zależną.
    • a to Punkt przecięcia Y która jest oczekiwaną wartością średnią y gdy wszyscy x zmienne są równe 0. Na wykresie regresji jest to punkt, w którym linia przecina oś Y.
    • b jest nachylenie linii regresji, która jest tempem zmian dla y jako x zmiany.
    • ε to termin błędu losowego, który jest różnicą między rzeczywistą wartością zmiennej zależnej a jej wartością przewidywaną.

    Równanie regresji liniowej zawsze zawiera składnik błędu, ponieważ w prawdziwym życiu predyktory nigdy nie są idealnie precyzyjne. Jednak niektóre programy, w tym Excel, wykonują obliczenia składnika błędu za kulisami. Tak więc w Excelu wykonujesz regresję liniową, używając polecenia najmniejsze kwadraty metoda i poszukiwanie współczynników a oraz b w taki sposób, że:

    y = bx + a

    Dla naszego przykładu równanie regresji liniowej przyjmuje następujący kształt:

    Sprzedaż parasoli = b * opad + a

    Istnieje garść różnych sposobów na znalezienie a oraz b . Trzy główne metody przeprowadzania analizy regresji liniowej w Excelu to:

    • Narzędzie regresji dołączone do pakietu Analysis ToolPak
    • Wykres rozrzutu z linią trendu
    • Wzór regresji liniowej

    Poniżej znajdziesz szczegółowe instrukcje dotyczące stosowania każdej z metod.

    Jak zrobić regresję liniową w Excelu za pomocą Analysis ToolPak

    W tym przykładzie pokazano, jak uruchomić regresję w Excelu za pomocą specjalnego narzędzia dołączonego do dodatku Analysis ToolPak.

    Włącz dodatek Analysis ToolPak

    Analysis ToolPak jest dostępny we wszystkich wersjach Excela 365 do 2003, ale nie jest domyślnie włączony. Trzeba więc włączyć go ręcznie, oto jak:

    1. W swoim programie Excel kliknij Plik > Opcje .
    2. W Opcje programu Excel okno dialogowe, wybierz Dodatki na lewym pasku bocznym, upewnij się, że Dodatki do programu Excel jest wybrany w Zarządzaj i kliknij Wejdź na stronę .
    3. W Dodatki w oknie dialogowym, zaznacz Pakiet narzędzi analitycznych i kliknij OK :

    To spowoduje dodanie Analiza danych narzędzia do Dane w zakładce wstążki Excela.

    Przeprowadzenie analizy regresji

    W tym przykładzie przeprowadzimy prostą regresję liniową w Excelu. Mamy listę średnich miesięcznych opadów z ostatnich 24 miesięcy w kolumnie B, która jest naszą zmienną niezależną (predyktorem), oraz liczbę sprzedanych parasoli w kolumnie C, która jest zmienną zależną. Oczywiście istnieje wiele innych czynników, które mogą wpływać na sprzedaż, ale na razie skupiamy się tylko na tych dwóch zmiennych:

    Przy włączonym dodatku Analysis Toolpak wykonaj te kroki, aby przeprowadzić analizę regresji w programie Excel:

    1. Na Dane zakładka, w Analiza grupę, kliknij przycisk Analiza danych przycisk.
    2. Wybierz Regresja i kliknąć OK .
    3. W Regresja W oknie dialogowym skonfiguruj następujące ustawienia:
      • Wybierz Wejście Y Zakres który jest twoim zmienna zależna W naszym przypadku jest to sprzedaż parasoli (C1:C25).
      • Wybierz Wejście X Zakres , tj. twój zmienna niezależna W tym przykładzie jest to średni miesięczny opad (B1:B25).

      Jeśli budujesz model regresji wielokrotnej, wybierz dwie lub więcej sąsiadujących kolumn z różnymi zmiennymi niezależnymi.

      • Sprawdź. Pudełko na etykiety jeśli na górze twoich zakresów X i Y znajdują się nagłówki.
      • Wybierz preferowany Opcja wyjścia, nowy arkusz w naszym przypadku.
      • Opcjonalnie można wybrać Resztki pole wyboru, aby uzyskać różnicę między przewidywanymi i rzeczywistymi wartościami.
    4. Kliknij OK i obserwować dane wyjściowe analizy regresji utworzone przez program Excel.

    Interpretacja wyników analizy regresji

    Jak właśnie zauważyłeś, uruchomienie regresji w Excelu jest łatwe, ponieważ wszystkie obliczenia są wykonywane automatycznie. Interpretacja wyników jest nieco trudniejsza, ponieważ musisz wiedzieć, co kryje się za każdą liczbą. Poniżej znajdziesz podział na 4 główne części danych wyjściowych analizy regresji.

    Dane wyjściowe analizy regresji: Wyjście podsumowujące

    Ta część mówi, jak dobrze obliczone równanie regresji liniowej pasuje do twoich danych źródłowych.

    Oto co oznaczają poszczególne informacje:

    Wielokrotne R To jest C spółczynnik korelacji który mierzy siłę związku liniowego między dwiema zmiennymi. Współczynnik korelacji może mieć dowolną wartość z przedziału od -1 do 1, a jego wartość bezwzględna wskazuje na siłę związku. Im większa wartość bezwzględna, tym silniejszy związek:

    • 1 oznacza silny pozytywny związek
    • -1 oznacza silną negatywną zależność
    • 0 oznacza brak jakiegokolwiek związku

    R Kwadrat . To jest Współczynnik określoności , który jest używany jako wskaźnik dobroci dopasowania. Pokazuje on, ile punktów mieści się na linii regresji. Wartość R2 jest obliczana z całkowitej sumy kwadratów, a dokładniej jest to suma kwadratowych odchyleń danych oryginalnych od średniej.

    W naszym przykładzie R2 wynosi 0,91 (w zaokrągleniu do 2 cyfr), co jest bardzo dobrym wynikiem. Oznacza to, że 91% naszych wartości pasuje do modelu analizy regresji. Innymi słowy, 91% zmiennych zależnych (wartości y) jest wyjaśnionych przez zmienne niezależne (wartości x). Ogólnie rzecz biorąc, R Squared o wartości 95% lub więcej jest uważane za dobre dopasowanie.

    Skorygowany kwadrat R . To jest R kwadratowy skorygowana o liczbę zmiennych niezależnych w modelu. Będziesz chciał użyć tej wartości zamiast R kwadratowy do analizy regresji wielokrotnej.

    Błąd standardowy Jest to kolejna miara dobroci dopasowania, która pokazuje precyzję analizy regresji - im mniejsza liczba, tym większa pewność co do równania regresji. Podczas gdy R2 reprezentuje procent wariancji zmiennych zależnych, która jest wyjaśniona przez model, błąd standardowy jest miarą bezwzględną, która pokazuje średnią odległość punktów danych od regresji.linia.

    Obserwacje Jest to po prostu liczba obserwacji w twoim modelu.

    Wynik analizy regresji: ANOVA

    Drugą częścią wyjścia jest analiza wariancji (ANOVA):

    Zasadniczo dzieli sumę kwadratów na poszczególne składniki, które dają informacje o poziomach zmienności w twoim modelu regresji:

    • df jest liczbą stopni swobody związanych ze źródłami wariancji.
    • SS Im mniejsza jest resztkowa SS w porównaniu z całkowitą SS, tym lepiej twój model pasuje do danych.
    • MS jest średnią kwadratową.
    • F jest statystyką F, czyli testem F dla hipotezy zerowej. Służy do testowania ogólnej istotności modelu.
    • Znaczenie F to P-value of F.

    Część ANOVA jest rzadko używana do prostej analizy regresji liniowej w Excelu, ale zdecydowanie powinieneś przyjrzeć się z bliska ostatniej składowej.The Znaczenie F Wartość ta daje pojęcie o tym, jak wiarygodne (statystycznie istotne) są twoje wyniki. Jeśli Significance F jest mniejsze niż 0,05 (5%), twój model jest w porządku. Jeśli jest większe niż 0,05, prawdopodobnie lepiej wybrać inną zmienną niezależną.

    Wynik analizy regresji: współczynniki

    Ta część zawiera szczegółowe informacje na temat elementów składowych Twojej analizy:

    Najbardziej przydatny element w tej sekcji to. Współczynniki . umożliwia zbudowanie równania regresji liniowej w programie Excel:

    y = bx + a

    Dla naszego zestawu danych, gdzie y to liczba sprzedanych parasoli, a x to średni miesięczny opad, nasza formuła regresji liniowej przebiega następująco:

    Y = współczynnik opadu * x + punkt przecięcia

    Wyposażony w wartości a i b zaokrąglone do trzech miejsc po przecinku, zmienia się w:

    Y=0,45*x-19,074

    Przykładowo, przy średnich miesięcznych opadach równych 82 mm, sprzedaż parasoli wyniesie około 17,8:

    0.45*82-19.074=17.8

    W podobny sposób można dowiedzieć się, ile parasolek zostanie sprzedanych przy dowolnym innym podanym przez nas miesięcznym opadzie (zmienna x).

    Wynik analizy regresji: resztki

    Jeśli porównamy szacunkową i rzeczywistą liczbę sprzedanych parasoli odpowiadającą miesięcznym opadom 82 mm, zobaczymy, że liczby te są nieco inne:

    • Szacunkowo: 17,8 (obliczone powyżej)
    • Rzeczywistość: 15 (wiersz 2 danych źródłowych)

    Dlaczego jest taka różnica? Ponieważ zmienne niezależne nigdy nie są doskonałymi predyktorami zmiennych zależnych. A resztki mogą pomóc zrozumieć, jak daleko rzeczywiste wartości są od wartości przewidywanych:

    Dla pierwszego punktu danych (opad 82 mm), reszta wynosi około -2,8. Dodajemy więc tę liczbę do wartości przewidywanej i otrzymujemy wartość rzeczywistą: 17,8 - 2,8 = 15.

    Jak zrobić wykres regresji liniowej w Excelu

    Jeśli potrzebujesz szybko zwizualizować związek między dwiema zmiennymi, narysuj wykres regresji liniowej. To bardzo proste - oto jak:

    1. Wybierz dwie kolumny ze swoimi danymi, łącznie z nagłówkami.
    2. Na Wkładka zakładka, w Czaty grupę, kliknij przycisk Wykres rozrzutu ikonę, a następnie wybierz Rozproszenie miniaturkę (pierwszą):

      Spowoduje to wstawienie do twojego arkusza kalkulacyjnego wykresu rozrzutu, który będzie przypominał ten:

    3. Teraz musimy narysować linię regresji najmniejszych kwadratów. Aby to zrobić, należy kliknąć prawym przyciskiem myszy na dowolnym punkcie i wybrać Dodaj linię trendu... z menu kontekstowego.
    4. W prawym panelu wybierz Linear kształt linii trendu i, opcjonalnie, sprawdzić Wyświetlanie równania na wykresie aby uzyskać formułę regresji:

      Jak możesz zauważyć, równanie regresji, które utworzył dla nas Excel, jest takie samo jak formuła regresji liniowej, którą zbudowaliśmy na podstawie wyjścia Coefficients.

    5. Przełącz się na Wypełnienie & Linia i dostosować linię do swoich potrzeb. Można na przykład wybrać inny kolor linii i użyć linii ciągłej zamiast linii przerywanej (wybierz opcję Linia ciągła w zakładce Typ kreski pudełko):

    W tym momencie twój wykres wygląda już jak porządny wykres regresji:

    Mimo to, możesz chcieć wprowadzić jeszcze kilka ulepszeń:

    • Przeciągnij równanie tam, gdzie uznasz to za stosowne.
    • Dodaj tytuły osi ( Elementy wykresu przycisk> Tytuły osi ).
    • Jeśli punkty danych zaczynają się w środku osi poziomej i/lub pionowej, jak w tym przykładzie, możesz chcieć pozbyć się nadmiernej białej przestrzeni. Poniższa wskazówka wyjaśnia, jak to zrobić: Skaluj osie wykresu, aby zmniejszyć białą przestrzeń.

      A tak wygląda nasz poprawiony wykres regresji:

      Ważna uwaga! Na wykresie regresji zmienna niezależna powinna zawsze znajdować się na osi X, a zmienna zależna na osi Y. Jeśli Twój wykres jest wykreślony w odwrotnej kolejności, zamień kolumny w arkuszu, a następnie narysuj wykres od nowa. Jeśli nie możesz zmienić kolejności danych źródłowych, to możesz zamienić osie X i Y bezpośrednio na wykresie.

    Jak zrobić regresję w Excelu za pomocą formuł

    Microsoft Excel posiada kilka funkcji statystycznych, które mogą pomóc w przeprowadzeniu analizy regresji liniowej, takich jak LINEST, SLOPE, INTERCEPT i CORREL.

    Funkcja LINEST wykorzystuje metodę regresji najmniejszych kwadratów do obliczenia prostej, która najlepiej wyjaśnia związek między twoimi zmiennymi i zwraca tablicę opisującą tę linię. Szczegółowe wyjaśnienie składni funkcji znajdziesz w tym tutorialu. Na razie po prostu stwórzmy wzór dla naszego przykładowego zestawu danych:

    =LINEST(C2:C25, B2:B25)

    Ponieważ funkcja LINEST zwraca tablicę wartości, musisz wprowadzić ją jako formułę tablicową. Zaznacz dwie sąsiadujące komórki w tym samym wierszu, E2:F2 w naszym przypadku, wpisz formułę i naciśnij Ctrl + Shift + Enter, aby ją zakończyć.

    Formuła zwraca b współczynnik (E1) i a stała (F1) dla znanego już równania regresji liniowej:

    y = bx + a

    Jeśli unikasz używania formuł tablicowych w swoich arkuszach, możesz obliczyć a oraz b indywidualnie z regularnymi formułami:

    Uzyskać punkt przecięcia Y (a):

    =INTERCEPT(C2:C25, B2:B25)

    Otrzymać nachylenie (b):

    =SLOPE(C2:C25, B2:B25)

    Dodatkowo można znaleźć współczynnik korelacji ( Wielokrotne R w podsumowaniu analizy regresji), która wskazuje, jak silnie dwie zmienne są ze sobą powiązane:

    =CORREL(B2:B25,C2:C25)

    Poniższy zrzut ekranu pokazuje wszystkie te formuły regresji Excela w akcji:

    Wskazówka. Jeśli chciałbyś uzyskać dodatkowe statystyki do analizy regresji, użyj funkcji LINEST z parametrem s tatuaże parametr ustawiony na TRUE, jak pokazano w tym przykładzie.

    W ten sposób robisz regresję liniową w programie Excel. To powiedziawszy, należy pamiętać, że Microsoft Excel nie jest programem statystycznym. Jeśli musisz wykonać analizę regresji na poziomie profesjonalnym, możesz chcieć użyć ukierunkowanego oprogramowania, takiego jak XLSTAT, RegressIt itp.

    Aby przyjrzeć się bliżej naszym formułom regresji liniowej i innym technikom omawianym w tym poradniku, zapraszamy do pobrania naszego przykładowego skoroszytu poniżej. Dziękujemy za lekturę!

    Zeszyt ćwiczeń

    Analiza regresji w Excelu - przykłady (plik .xlsx)

    Michael Brown jest oddanym entuzjastą technologii z pasją do upraszczania złożonych procesów za pomocą narzędzi programowych. Dzięki ponad dziesięcioletniemu doświadczeniu w branży technologicznej doskonalił swoje umiejętności w programach Microsoft Excel i Outlook, a także w Arkuszach i Dokumentach Google. Blog Michaela jest poświęcony dzieleniu się swoją wiedzą i doświadczeniem z innymi, dostarczając łatwych do zastosowania wskazówek i samouczków w celu poprawy produktywności i wydajności. Niezależnie od tego, czy jesteś doświadczonym profesjonalistą, czy początkującym, blog Michaela oferuje cenne spostrzeżenia i praktyczne porady dotyczące maksymalnego wykorzystania tych niezbędnych narzędzi programowych.