Korelacja rang Spearmana w Excelu: wzór i wykres

  • Udostępnij To
Michael Brown

Tutorial wyjaśnia prostym językiem podstawy korelacji Spearmana i pokazuje jak obliczyć współczynnik korelacji rang Spearmana w Excelu.

Wykonując analizę korelacji w programie Excel, w większości przypadków będziesz miał do czynienia z korelacją Pearsona. Ponieważ jednak współczynnik korelacji Pearsona mierzy jedynie liniową zależność między dwiema zmiennymi, nie sprawdza się dla wszystkich typów danych - twoje zmienne mogą być silnie powiązane w sposób nieliniowy, a mimo to współczynnik będzie bliski zeru. W takich okolicznościach możesz wykonać analizę Spearmanakorelacja rangowa zamiast Pearsona.

    Korelacja Spearmana - podstawy

    Na stronie Korelacja Spearmana jest nieparametryczną wersją współczynnika korelacji Pearsona, który mierzy stopień powiązania między dwiema zmiennymi na podstawie ich rang.

    Na stronie Korelacja Pearson Product Moment bada liniowy związek między dwiema zmiennymi ciągłymi. liniowy oznacza związek, gdy dwie zmienne zmieniają się w tym samym kierunku ze stałą szybkością.

    Korelacja rangowa Spearmana ocenia monotoniczny związek pomiędzy szeregowanymi wartościami. W związku monotonicznym zmienne również mają tendencję do zmiany razem, ale niekoniecznie w stałym tempie.

    Kiedy stosować korelację Spearmana

    Analizę korelacji Spearmana należy stosować w każdej z następujących okoliczności, gdy nie są spełnione założenia leżące u podstaw korelacji Pearsona:

    1. Jeśli twoje dane wykazują nieliniowe zależności lub nie mają rozkładu normalnego.
    2. Jeśli co najmniej jedna zmienna jest ordynarny Jeśli wartości można ułożyć w kolejności "pierwszy, drugi, trzeci...", to mamy do czynienia z danymi porządkowymi.
    3. Jeśli istnieją znaczące odchylenia W przeciwieństwie do korelacji Pearsona, korelacja Spearmana nie jest wrażliwa na wartości odstające, ponieważ wykonuje obliczenia na szeregach, więc różnica między rzeczywistymi wartościami nie ma znaczenia.

    Na przykład możesz użyć korelacji Spearmana, aby znaleźć odpowiedzi na następujące pytania:

    • Czy osoby z wyższym poziomem wykształcenia bardziej dbają o środowisko?
    • Czy liczba objawów, które ma pacjent, ma związek z jego chęcią przyjmowania leków?

    Współczynnik korelacji Spearmana

    W statystyce Współczynnik korelacji Spearmana jest reprezentowany przez r s lub grecka litera ρ ("rho"), dlatego często nazywany jest Spearman's rho .

    Współczynnik korelacji rang Spearmana mierzy zarówno siłę, jak i kierunek związku między rangami danych. Może on przyjmować dowolną wartość z zakresu od -1 do 1, a im bliższa wartość bezwzględna współczynnika do 1, tym silniejszy związek:

    • 1 oznacza doskonałą korelację dodatnią
    • -1 to doskonała ujemna korelacja
    • 0 oznacza brak korelacji

    Formuła korelacji rang Spearmana

    W zależności od tego, czy w rankingu występują lub nie występują remisy (ta sama ranga przypisana dwóm lub więcej obserwacjom), współczynnik korelacji Spearmana można obliczyć za pomocą jednego z następujących wzorów.

    Jeśli są brak związanych szeregów , wystarczy prostsza formuła:

    Gdzie:

    • d i to różnica między parą rang
    • n jest liczbą obserwacji

    Zajmować się zremisowane szeregi , należy zastosować pełną wersję wzoru korelacyjnego Spearmana, który jest nieco zmodyfikowaną wersją r Pearsona:

    Gdzie:

    • R(x) i R(y) są rangami x oraz y zmienne
    • R(x) i R(y) są średnimi rangami

    Jak obliczyć korelację Spearmana w Excelu za pomocą funkcji CORREL

    Niestety, Excel nie posiada wbudowanej funkcji do obliczania współczynnika korelacji rang Spearmana. Nie oznacza to jednak, że będziesz musiał targać swój mózg powyższymi formułami. Manipulując nieco Excelem, możemy wymyślić znacznie prostszy sposób na wykonanie korelacji Spearmana.

    Jako przykład spróbujmy sprawdzić, czy nasza aktywność fizyczna ma jakiś związek z naszym ciśnieniem krwi. W kolumnie B mamy liczbę minut, które 10 mężczyzn w tym samym wieku spędza codziennie na siłowni, a w kolumnie C mamy ich skurczowe ciśnienie krwi.

    Aby znaleźć współczynnik korelacji Spearmana w programie Excel, wykonaj następujące czynności:

    1. Uszereguj swoje dane

      Ponieważ korelacja Spearmana ocenia związki między dwiema zmiennymi na podstawie ich rang, musisz uszeregować swoje dane źródłowe. Można to szybko zrobić, używając funkcji Excel RANK.AVG.

      Aby uszeregować pierwszą zmienną (aktywność fizyczną), wpisz poniższy wzór w D2, a następnie przeciągnij go w dół do D11:

      =RANK.AVG(B2,$B$2:$B$11,0)

      Aby uszeregować drugą zmienną (ciśnienie krwi), umieść następującą formułę w komórce E2 i skopiuj ją w dół kolumny:

      =RANK.AVG(C2,$C$2:$C$11,0)

      Aby formuły działały poprawnie, należy pamiętać o zablokowaniu zakresów za pomocą bezwzględnych odwołań do komórek.

      W tym momencie twoje dane źródłowe powinny wyglądać podobnie do tego:

    2. Znajdź współczynnik korelacji Spearmana

      Mając ustalone rangi, możemy teraz użyć funkcji CORREL Excela, aby uzyskać rho Spearmana:

      =CORREL(D2:D11, E2:E11)

      Wzór zwraca współczynnik -0,7576 (w zaokrągleniu do 4 cyfr), co świadczy o dość silnej ujemnej korelacji i pozwala stwierdzić, że im więcej dana osoba ćwiczy, tym niższe jest jej ciśnienie krwi.

      Współczynnik korelacji Pearsona dla tej samej próby (-0,7445) wskazuje na nieco słabszą korelację, ale nadal istotną statystycznie:

    Piękno tej metody polega na tym, że jest ona szybka, łatwa i działa niezależnie od tego, czy w rankingu są remisy, czy nie.

    Obliczanie współczynnika korelacji Spearmana w Excelu za pomocą tradycyjnej formuły

    Jeśli nie jesteś do końca pewien, czy funkcja CORREL dobrze obliczyła rho Spearmana, możesz zweryfikować wynik za pomocą tradycyjnego wzoru stosowanego w statystyce. Oto jak:

    1. Znajdź różnicę między każdą parą rang ( d ) poprzez odjęcie jednej rangi od drugiej:

      =D2-E2

      Formuła ta trafia do F2, a następnie jest kopiowana w dół kolumny.

    2. Podnieś każdą różnicę rang do potęgi drugiej ( d2 ):

      =F2^2

      Formuła ta trafia do kolumny G.

    3. Zsumuj różnice kwadratowe:

      =SUM(G2:G11)

      Ta formuła może trafić do dowolnej pustej komórki, w naszym przypadku G12.

      Z poniższego zrzutu ekranu prawdopodobnie uzyskasz lepsze zrozumienie układu danych:

    4. W zależności od tego, czy twój zestaw danych ma jakiekolwiek związane rangi, czy nie, użyj jednego z tych wzorów, aby obliczyć współczynnik korelacji Spearmana.

    W naszym przykładzie nie ma remisów, więc możemy pójść z prostszą formułą:

    Z d2 równa 290, oraz n (liczba obserwacji) równa 10, wzór ulega następującym przekształceniom:

    Jako wynik otrzymujemy -0,7575758, co doskonale zgadza się z obliczonym w poprzednim przykładzie współczynnikiem korelacji Spearmana.

    W programie Microsoft Excel powyższe obliczenia można wykonać za pomocą następującego równania:

    =1-(6*G12/(10*(10^2-1)))

    Gdzie G12 jest sumą kwadratów różnic rangowych (d2).

    Jak zrobić korelację Spearmana w Excelu za pomocą wykresu

    Współczynniki korelacji w programie Excel mierzą tylko zależności liniowe (Pearson) lub monotoniczne (Spearman). Możliwe są jednak inne związki. Tak więc, bez względu na to, jaką korelację przeprowadzisz, zawsze dobrym pomysłem jest przedstawienie związku między zmiennymi na wykresie.

    Aby narysować wykres korelacji dla danych rangowych, oto co trzeba zrobić:

    1. Oblicz rangi za pomocą funkcji RANK.AVG, jak wyjaśniono w tym przykładzie.
    2. Wybierz dwie kolumny z rangami.
    3. Wstaw wykres rozrzutu XY. W tym celu kliknij przycisk Rozproszenie wykres ikona na Wkładka zakładka, w Czaty grupa.
    4. Dodaj linię trendu do swojego wykresu. Najszybszym sposobem jest kliknięcie przycisku Elementy wykresu przycisk> Dodaj linię trendu... .
    5. Wyświetl wartość R-squared na wykresie. Kliknij dwukrotnie na linię trendu, aby otworzyć jej okienko, przełącz się do Opcje linii trendu i wybrać Wyświetlanie wartości R-squared na wykresie pudełko.
    6. Pokaż więcej cyfr w wartości R2 dla lepszej dokładności.

    W rezultacie otrzymamy wizualną reprezentację zależności między rangami. Dodatkowo otrzymamy Współczynnik określoności (R2), którego pierwiastkiem kwadratowym jest współczynnik korelacji Pearsona (r). Ale ponieważ wykreśliłeś dane rangowe, to r Pearsona jest niczym innym jak rho Spearmana.

    Uwaga. R-kwadrat jest zawsze liczbą dodatnią, stąd wydedukowany współczynnik korelacji rang Spearmana również będzie zawsze dodatni. Aby dodać odpowiedni znak, wystarczy spojrzeć na linię na wykresie korelacji - nachylenie w górę oznacza korelację dodatnią (znak plus), a nachylenie w dół - korelację ujemną (znak minus).

    W naszym przypadku R2 jest równe 0,5739210285. Użyj funkcji SQRT, aby znaleźć pierwiastek kwadratowy:

    =SQRT(0,5739210285)

    ...i otrzymamy znany już współczynnik 0,7575758.

    Spadek na wykresie wykazuje ujemną korelację, więc dodajemy znak minus i otrzymujemy prawidłowy współczynnik korelacji Spearmana wynoszący -0,7575758.

    Tak właśnie można obliczyć współczynnik korelacji rang Spearmana w Excelu. Aby przyjrzeć się bliżej przykładom omawianym w tym tutorialu, zapraszamy do pobrania naszego przykładowego skoroszytu poniżej. Dziękuję za lekturę i mam nadzieję, że zobaczymy się na naszym blogu za tydzień!

    Zeszyt ćwiczeń

    Korelacja rang Spearmana w Excelu (plik .xlsx)

    Michael Brown jest oddanym entuzjastą technologii z pasją do upraszczania złożonych procesów za pomocą narzędzi programowych. Dzięki ponad dziesięcioletniemu doświadczeniu w branży technologicznej doskonalił swoje umiejętności w programach Microsoft Excel i Outlook, a także w Arkuszach i Dokumentach Google. Blog Michaela jest poświęcony dzieleniu się swoją wiedzą i doświadczeniem z innymi, dostarczając łatwych do zastosowania wskazówek i samouczków w celu poprawy produktywności i wydajności. Niezależnie od tego, czy jesteś doświadczonym profesjonalistą, czy początkującym, blog Michaela oferuje cenne spostrzeżenia i praktyczne porady dotyczące maksymalnego wykorzystania tych niezbędnych narzędzi programowych.