Korelacja w Excelu: współczynnik, macierz i wykres

  • Udostępnij To
Michael Brown

Tutorial wyjaśnia podstawy korelacji w Excelu, pokazuje jak obliczyć współczynnik korelacji, zbudować macierz korelacji i zinterpretować wyniki.

Jednym z najprostszych obliczeń statystycznych, które można wykonać w programie Excel, jest korelacja. Choć prosta, jest bardzo przydatna w zrozumieniu relacji między dwiema lub większą liczbą zmiennych. Microsoft Excel zapewnia wszystkie niezbędne narzędzia do przeprowadzenia analizy korelacji, trzeba tylko wiedzieć, jak z nich korzystać.

    Korelacja w Excelu - podstawy

    Korelacja jest miarą opisującą siłę i kierunek związku między dwiema zmiennymi. Jest powszechnie stosowana w statystyce, ekonomii i naukach społecznych w budżetach, biznesplanach i tym podobnych.

    Metoda używana do badania, jak blisko zmienne są powiązane, nazywa się analiza korelacji .

    Oto kilka przykładów silnej korelacji:

    • Liczba spożywanych kalorii a waga (korelacja dodatnia)
    • Temperatura na zewnątrz a Twoje rachunki za ogrzewanie (korelacja ujemna)

    A tu przykłady danych, które mają słabą lub żadną korelację:

    • Imię Twojego kota i jego ulubione jedzenie
    • Kolor twoich oczu i twój wzrost

    Istotną rzeczą, którą należy zrozumieć na temat korelacji jest to, że pokazuje ona jedynie jak blisko powiązane są dwie zmienne. Korelacja nie oznacza jednak związku przyczynowego. Fakt, że zmiany w jednej zmiennej są związane ze zmianami w drugiej zmiennej nie oznacza, że jedna zmienna rzeczywiście powoduje zmianę drugiej.

    Jeśli jesteś zainteresowany poznaniem przyczynowości i tworzeniem prognoz, zrób krok do przodu i wykonaj analizę regresji liniowej.

    Współczynnik korelacji w Excelu - interpretacja korelacji

    Liczbową miarą stopnia powiązania dwóch zmiennych ciągłych jest tzw. współczynnik korelacji (r).

    Wartość współczynnika mieści się zawsze w przedziale od -1 do 1 i mierzy zarówno siłę, jak i kierunek zależności liniowej między zmiennymi.

    Siła

    Im większa wartość bezwzględna współczynnika, tym silniejszy związek:

    • Skrajne wartości -1 i 1 wskazują na doskonałą zależność liniową, gdy wszystkie punkty danych padają na linię. W praktyce rzadko obserwuje się doskonałą korelację, zarówno dodatnią, jak i ujemną.
    • Współczynnik 0 wskazuje na brak liniowej zależności między zmiennymi. To jest to, co prawdopodobnie otrzymasz z dwoma zestawami liczb losowych.
    • Wartości od 0 do +1/-1 reprezentują skalę słabych, umiarkowanych i silnych związków.Jako r zbliża się do -1 lub 1, siła związku wzrasta.

    Kierunek

    Znak współczynnika (plus lub minus) wskazuje na kierunek zależności.

    • Pozytywne Współczynniki reprezentują bezpośrednią korelację i tworzą na wykresie nachylenie w górę - gdy jedna zmienna rośnie, rośnie też druga i odwrotnie.
    • Negatywny Współczynniki reprezentują odwrotną korelację i tworzą na wykresie spadek - gdy jedna zmienna wzrasta, druga ma tendencję do zmniejszania się.

    Dla lepszego zrozumienia proszę spojrzeć na poniższe wykresy korelacji:

    • Współczynnik 1 oznacza doskonałą relację dodatnią - gdy jedna zmienna wzrasta, druga proporcjonalnie wzrasta.
    • Współczynnik -1 oznacza doskonałą ujemną zależność - gdy jedna zmienna rośnie, druga proporcjonalnie maleje.
    • Współczynnik 0 oznacza brak związku między dwiema zmiennymi - punkty danych są rozrzucone po całym wykresie.

    Korelacja Pearsona

    W statystyce mierzy się kilka rodzajów korelacji w zależności od rodzaju danych, z którymi się pracuje. W tym poradniku skupimy się na najbardziej powszechnej.

    Korelacja Pearsona , pełna nazwa to. Korelacja Pearson Product Moment (PPMC), służy do oceny liniowy zależności między danymi, gdy zmiana jednej zmiennej wiąże się z proporcjonalną zmianą drugiej zmiennej. W uproszczeniu korelacja Pearsona odpowiada na pytanie: Czy dane można przedstawić na linii?

    W statystyce jest to najpopularniejszy typ korelacji i jeśli mamy do czynienia z "współczynnikiem korelacji" bez dalszych kwalifikacji, to najprawdopodobniej jest to Pearson.

    Oto najczęściej stosowany wzór na znalezienie współczynnika korelacji Pearsona, zwanego również R Pearsona :

    Czasami można spotkać się z dwoma innymi wzorami na obliczenie współczynnik korelacji próbki (r) oraz współczynnik korelacji populacji (ρ).

    Jak zrobić korelację Pearsona w Excelu

    Obliczanie współczynnika korelacji Pearsona ręcznie wiąże się z dość dużą ilością matematyki. Na szczęście program Microsoft Excel bardzo uprościł sprawę. W zależności od zestawu danych i celu, jaki chcesz osiągnąć, możesz swobodnie użyć jednej z poniższych technik:

    • Znajdź współczynnik korelacji Pearsona za pomocą funkcji CORREL.
    • Wykonaj macierz korelacji, wykonując Analizę danych.
    • Znajdź współczynniki korelacji wielokrotnej za pomocą wzoru.
    • Wykreśl wykres korelacji, aby uzyskać wizualną reprezentację relacji danych.

    Jak obliczyć współczynnik korelacji w Excelu

    Aby obliczyć współczynnik korelacji ręcznie, musiałbyś użyć tej długiej formuły. Aby znaleźć współczynnik korelacji w programie Excel, wykorzystaj funkcję CORREL lub PEARSON i uzyskaj wynik w ułamku sekundy.

    Funkcja CORREL w programie Excel

    Funkcja CORREL zwraca współczynnik korelacji Pearsona dla dwóch zestawów wartości. Jej składnia jest bardzo łatwa i prosta:

    CORREL(array1, array2)

    Gdzie:

    • Array1 jest pierwszym zakresem wartości.
    • Array2 to drugi zakres wartości.

    Obie tablice powinny mieć równą długość.

    Zakładając, że mamy zbiór zmiennych niezależnych ( x ) w B2:B13 i zmiennych zależnych (y) w C2:C13, nasza formuła współczynnika korelacji przebiega następująco:

    =CORREL(B2:B13, C2:C13)

    Albo możemy zamienić zakresy i nadal uzyskać ten sam wynik:

    =CORREL(C2:C13, B2:B13)

    Tak czy inaczej, wzór wskazuje na silną ujemną korelację (około -0,97) pomiędzy średnią temperaturą miesięczną a liczbą sprzedanych grzejników:

    3 rzeczy, które powinieneś wiedzieć o funkcji CORREL w Excelu

    Aby skutecznie obliczyć współczynnik korelacji w Excelu, należy pamiętać o tych 3 prostych faktach:

    • Jeśli jedna lub więcej komórek w tablicy zawiera tekst, wartości logiczne lub puste miejsca, takie komórki są ignorowane; komórki z zerowymi wartościami są obliczane.
    • Jeśli dostarczone tablice mają różne długości, zwracany jest błąd #N/A.
    • Jeśli któraś z tablic jest pusta lub jeśli odchylenie standardowe ich wartości jest równe zeru, pojawia się błąd #DIV/0!.

    Funkcja PEARSON w programie Excel

    Funkcja PEARSON w Excelu robi to samo - oblicza współczynnik korelacji Pearson Product Moment.

    PEARSON(array1, array2)

    Gdzie:

    • Array1 jest zakresem niezależnych wartości.
    • Array2 jest zakresem wartości zależnych.

    Ponieważ zarówno PEARSON, jak i CORREL obliczają współczynnik korelacji liniowej Pearsona, ich wyniki powinny się zgadzać i na ogół robią to w ostatnich wersjach programu Excel 2007 do Excel 2019.

    W programie Excel 2003 i wcześniejszych wersjach funkcja PEARSON może jednak wyświetlać pewne błędy zaokrąglenia, dlatego w starszych wersjach zaleca się stosowanie CORREL zamiast PEARSON.

    Na naszym przykładowym zestawie danych obie funkcje wykazują te same wyniki:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Jak zrobić macierz korelacji w Excelu z Analizą danych

    Gdy trzeba zbadać zależności między więcej niż dwiema zmiennymi, sensowne jest skonstruowanie macierzy korelacji, którą czasami nazywa się współczynnik korelacji wielokrotnej .

    Na stronie macierz korelacji jest tabelą, która przedstawia współczynniki korelacji pomiędzy zmiennymi na przecięciu odpowiednich wierszy i kolumn.

    Macierz korelacji w Excelu buduje się za pomocą. Korelacja narzędzie z Pakiet narzędzi analitycznych dodatek. Dodatek ten jest dostępny we wszystkich wersjach programu Excel 2003 do Excel 2019, ale nie jest domyślnie włączony. Jeśli jeszcze go nie aktywowałeś, zrób to teraz, wykonując kroki opisane w Jak włączyć Data Analysis ToolPak w programie Excel.

    Dzięki narzędziom analizy danych dodanym do wstążki Excela jesteś przygotowany do prowadzenia analizy korelacji:

    1. W prawym górnym rogu Dane tab> Analiza grupę, kliknij przycisk Analiza danych przycisk.
    2. W Analiza danych okno dialogowe, wybierz Korelacja i kliknij przycisk OK.
    3. W Korelacja skonfigurować parametry w ten sposób:
      • Kliknij w Zakres wejściowy i wybierz zakres z danymi źródłowymi, łącznie z nagłówkami kolumn (w naszym przypadku B1:D13).
      • W Pogrupowane według w sekcji, upewnij się, że Kolumny pole radiowe jest zaznaczone (biorąc pod uwagę, że Twoje dane źródłowe są pogrupowane w kolumny).
      • Wybierz Etykiety w pierwszym rzędzie pole wyboru, jeśli wybrany zakres zawiera nagłówki kolumn.
      • Wybierz żądaną opcję wyjścia. Aby matryca znajdowała się w tym samym arkuszu, wybierz Zakres wyjściowy i podaj odwołanie do najbardziej wysuniętej na lewo komórki, do której ma być wyprowadzona macierz (w tym przykładzie jest to A15).

    Po zakończeniu kliknij przycisk OK przycisk:

    Twoja macierz współczynników korelacji jest gotowa i powinna wyglądać jak pokazana w następnej sekcji.

    Interpretacja wyników analizy korelacji

    W macierzy korelacji w Excelu można znaleźć współczynniki na przecięciu wierszy i kolumn. Jeśli współrzędne kolumny i wiersza są takie same, wyprowadzana jest wartość 1.

    W powyższym przykładzie interesuje nas korelacja między zmienną zależną (liczba sprzedanych grzejników) a dwiema zmiennymi niezależnymi (średnia miesięczna temperatura i koszty reklamy). Patrzymy więc tylko na liczby na przecięciu tych wierszy i kolumn, które są zaznaczone na poniższym zrzucie ekranu:

    Ujemny współczynnik -0,97 (w zaokrągleniu do 2 miejsc po przecinku) wskazuje na silną odwrotną korelację pomiędzy temperaturą miesięczną a sprzedażą grzejników - wraz ze wzrostem temperatury sprzedaje się mniej grzejników.

    Dodatni współczynnik 0,97 (w zaokrągleniu do 2 miejsc po przecinku) wskazuje na silny bezpośredni związek między budżetem reklamowym a sprzedażą - im więcej pieniędzy przeznaczasz na reklamę, tym wyższa jest sprzedaż.

    Jak wykonać analizę korelacji wielokrotnej w Excelu za pomocą formuł

    Budowanie tabeli korelacji za pomocą narzędzia Analiza danych jest łatwe. Jednakże, macierz ta jest statyczna, co oznacza, że będziesz musiał uruchomić analizę korelacji od nowa za każdym razem, gdy zmienią się dane źródłowe.

    Dobrą wiadomością jest to, że możesz łatwo zbudować podobną tabelę korelacji samodzielnie, a ta macierz będzie aktualizowana automatycznie przy każdej zmianie wartości źródłowych.

    Aby zlecić jej wykonanie, skorzystaj z tej ogólnej formuły:

    CORREL(OFFSET( pierwszy_zakres_zmiennych , 0, ROWS($1:1)-1), OFFSET( pierwszy_zakres_zmiennych , 0, COLUMNS($A:A)-1))

    Ważna uwaga! Aby formuła działała, powinieneś zablokować pierwszy zakres zmiennych za pomocą bezwzględnych odniesień do komórek.

    W naszym przypadku pierwszy zakres zmiennych to $B$2:$B$13 (proszę zwrócić uwagę na znak $, który blokuje odniesienie), a nasz wzór na korelację przyjmuje taki kształt:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Mając gotowy wzór, skonstruujmy macierz korelacji:

    1. W pierwszym wierszu i pierwszej kolumnie macierzy wpisz etykiety zmiennych w takiej samej kolejności, w jakiej występują w Twojej tabeli źródłowej (zobacz zrzut ekranu poniżej).
    2. Wprowadź powyższą formułę do komórki najbardziej wysuniętej na lewo (w naszym przypadku B16).
    3. Przeciągnij formułę w dół i w prawo, aby skopiować ją do tylu wierszy i kolumn, ile potrzeba (w naszym przykładzie 3 wiersze i 3 kolumny).

    W rezultacie otrzymujemy poniższą macierz ze współczynnikami korelacji wielokrotnej. Proszę zauważyć, że współczynniki zwracane przez naszą formułę są dokładnie takie same, jak te, które zostały wyprowadzone przez Excela w poprzednim przykładzie (odpowiednie współczynniki zostały wyróżnione):

    Jak działa ta formuła

    Jak już wiesz, funkcja CORREL w Excelu zwraca współczynnik korelacji dla dwóch zestawów zmiennych, które podajesz. Głównym wyzwaniem jest dostarczenie odpowiednich zakresów w odpowiednich komórkach macierzy. W tym celu wprowadzasz do formuły tylko pierwszy zakres zmiennych i korzystasz z poniższych funkcji, aby dokonać niezbędnych korekt:

    • OFFSET - zwraca zakres będący daną liczbą wierszy i kolumn od określonego zakresu.
    • ROWS i COLUMNS - zwracają odpowiednio liczbę wierszy i kolumn w zakresie. W naszej formule korelacyjnej obie są używane w jednym celu - uzyskać liczbę kolumn do przesunięcia względem zakresu początkowego. A osiąga się to dzięki sprytnemu wykorzystaniu odwołań bezwzględnych i względnych.

    Aby lepiej zrozumieć logikę, zobaczmy, jak formuła oblicza współczynniki wyróżnione na powyższym zrzucie ekranu.

    Najpierw przeanalizujmy wzór w B18, który znajduje korelację między temperaturą miesięczną (B2:B13) a sprzedanymi grzejnikami (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    W pierwszej funkcji OFFSET, ROWS($1:1) przekształcił się w ROWS($1:3), ponieważ druga współrzędna jest względna, więc zmienia się na podstawie względnego położenia wiersza, w którym kopiowana jest formuła (2 wiersze w dół). Zatem ROWS() zwraca 3, od którego odejmujemy 1 i otrzymujemy zakres, który jest 2 kolumny w prawo od zakresu źródłowego, czyli $D$2:$D$13 (sprzedaż grzejników).

    Drugi OFFSET nie zmienia określonego zakresu $B$2:$B$13 (temperatura), ponieważ COLUMNS($A:A)-1 zwraca zero.

    W efekcie nasza długa formuła zamienia się w prosty CORREL($D$2:$D$13, $B$2:$B$13) i zwraca dokładnie taki współczynnik, jaki chcemy.

    Podobnie działa wzór w C18, który oblicza współczynnik korelacji dla kosztu reklamy (C2:C13) i sprzedaży (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Pierwsza funkcja OFFSET jest absolutnie taka sama jak opisana powyżej, zwracając zakres $D$2:$D$13 (sprzedaż grzejników).

    W drugim OFFSET, COLUMNS($A:A)-1 zmienia się na COLUMNS($A:B)-1, ponieważ skopiowaliśmy formułę o 1 kolumnę w prawo. W konsekwencji OFFSET otrzymuje zakres, który jest o 1 kolumnę w prawo od zakresu źródłowego, czyli $C$2:$C$13 (koszt reklamy).

    Jak sporządzić wykres korelacji w programie Excel

    Podczas wykonywania korelacji w Excelu, najlepszym sposobem na uzyskanie wizualnej reprezentacji relacji pomiędzy danymi jest narysowanie wykres rozrzutu z linia trendu Oto jak:

    1. Wybierz dwie kolumny z danymi liczbowymi, łącznie z nagłówkami kolumn. Kolejność kolumn jest istotna:. niezależny zmienna powinna znajdować się w lewej kolumnie, ponieważ ta kolumna ma być wykreślona na osi x; zmienna zależny zmienna powinna znajdować się w prawej kolumnie, ponieważ będzie wykreślana na osi y.
    2. Na Wkładka zakładka, w Czaty grupę, kliknij przycisk Rozproszenie Wstawi to natychmiast do arkusza wykres rozrzutu XY.
    3. Kliknij prawym przyciskiem myszy dowolny punkt danych na wykresie i wybierz Dodaj linię trendu... z menu kontekstowego.

    Szczegółowa instrukcja krok po kroku znajduje się w:

    • Jak utworzyć wykres rozproszony w programie Excel
    • Jak dodać linię trendu do wykresu w programie Excel

    Dla naszego przykładowego zbioru danych wykresy korelacji wyglądają tak, jak na poniższym obrazku. Dodatkowo wyświetliliśmy wartość R-squared, zwaną również współczynnikiem Współczynnik określoności Wartość ta wskazuje, jak dobrze linia trendu odpowiada danym - im bliżej R2 do 1, tym lepsze dopasowanie.

    Z wartości R2 wyświetlonej na twoim rozrzucie możesz łatwo obliczyć współczynnik korelacji:

    1. Aby uzyskać lepszą dokładność, każ Excelowi pokazać więcej cyfr w wartości R-squared niż robi to domyślnie.
    2. Kliknij wartość R2 na wykresie, wybierz ją za pomocą myszy i naciśnij Ctrl + C, aby ją skopiować.
    3. Uzyskaj pierwiastek kwadratowy z R2 albo za pomocą funkcji SQRT, albo podnosząc skopiowaną wartość R2 do potęgi 0,5.

    Na przykład wartość R2 na drugim wykresie wynosi 0,9174339392. Można więc znaleźć współczynnik korelacji dla Reklama oraz Sprzedawane grzejniki z jedną z tych formuł:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Jak można się upewnić, obliczone w ten sposób współczynniki doskonale pokrywają się ze współczynnikami korelacji znalezionymi w poprzednich przykładach, oprócz znaku :

    Potencjalne problemy z korelacją w programie Excel

    Na stronie Korelacja Pearson Product Moment ujawnia tylko liniowy Oznacza to, że twoje zmienne mogą być silnie powiązane w inny, krzywoliniowy sposób i nadal mieć współczynnik korelacji równy lub bliski zeru.

    Korelacja Pearsona nie jest w stanie odróżnić zależny oraz niezależny Na przykład, używając funkcji CORREL do znalezienia związku między średnią miesięczną temperaturą a liczbą sprzedanych grzejników, otrzymaliśmy współczynnik -0,97, co wskazuje na wysoką ujemną korelację. Można jednak zamienić zmienne i uzyskać ten sam wynik. Ktoś może więc stwierdzić, że większa sprzedaż grzejników powoduje spadek temperatury, co oczywiście nie ma sensu.sens. Dlatego prowadząc analizę korelacji w Excelu, należy mieć świadomość, jakie dane dostarczamy.

    Poza tym, korelacja Pearsona jest bardzo wrażliwa na odchylenia Jeśli masz jeden lub więcej punktów danych, które znacznie różnią się od reszty danych, możesz uzyskać zniekształcony obraz związku między zmiennymi. W takim przypadku dobrze byłoby użyć korelacji rang Spearmana zamiast tego.

    Oto jak zrobić korelację w Excelu. Aby przyjrzeć się bliżej przykładom omawianym w tym tutorialu, zapraszam do pobrania naszego przykładowego skoroszytu poniżej. Dziękuję za lekturę i mam nadzieję, że zobaczymy się na naszym blogu za tydzień!

    Zeszyt ćwiczeń

    Oblicz korelację w Excelu (plik .xlsx)

    Michael Brown jest oddanym entuzjastą technologii z pasją do upraszczania złożonych procesów za pomocą narzędzi programowych. Dzięki ponad dziesięcioletniemu doświadczeniu w branży technologicznej doskonalił swoje umiejętności w programach Microsoft Excel i Outlook, a także w Arkuszach i Dokumentach Google. Blog Michaela jest poświęcony dzieleniu się swoją wiedzą i doświadczeniem z innymi, dostarczając łatwych do zastosowania wskazówek i samouczków w celu poprawy produktywności i wydajności. Niezależnie od tego, czy jesteś doświadczonym profesjonalistą, czy początkującym, blog Michaela oferuje cenne spostrzeżenia i praktyczne porady dotyczące maksymalnego wykorzystania tych niezbędnych narzędzi programowych.