Рангова корелация на Спирман в Excel: формула и графика

  • Споделя Това
Michael Brown

В урока се обясняват основите на корелацията на Спирман на прост език и се показва как да се изчисли коефициентът на корелация на Спирман в Excel.

Когато извършвате корелационен анализ в Excel, в повечето случаи се занимавате с корелацията на Пиърсън. Но тъй като корелационният коефициент на Пиърсън измерва само линейната връзка между две променливи, той не работи за всички видове данни - променливите ви могат да бъдат силно свързани по нелинеен начин и въпреки това коефициентът да е близък до нула. При такива обстоятелства можете да направите корелацията на Спиърман.корелация на ранга вместо корелация на Пирсън.

    Корелация на Спирман - основи

    Сайтът Корелация на Спирман е непараметричната версия на коефициента на корелация на Пиърсън, която измерва степента на връзка между две променливи въз основа на техните рангове.

    Сайтът Корелация на продукта на Пиърсън тества Линейна Връзка между две непрекъснати променливи. Линейна означава връзка, при която двете променливи се променят в една и съща посока с постоянна скорост.

    Корелация на Спирман оценява монотонен При монотонната връзка променливите също имат тенденция да се променят заедно, но не непременно с постоянна скорост.

    Кога се прави корелация на Спирман

    Корелационният анализ на Спирман трябва да се използва при някое от следните обстоятелства, когато не са изпълнени основните допускания на корелацията на Пиърсън:

    1. Ако данните ви показват нелинеен връзка или не са нормално разпределени.
    2. Ако поне една променлива е ординален Ако стойностите ви могат да бъдат подредени по реда "първа, втора, трета...", имате работа с ординални данни.
    3. Ако са налице значителни отклонения . за разлика от корелацията на Пиърсън, корелацията на Спирмън не е чувствителна към отклоненията, тъй като извършва изчисления върху ранговете, така че разликата между действителните стойности няма значение.

    Например можете да използвате корелацията на Спирман, за да намерите отговорите на следните въпроси:

    • Дали хората с по-високо образование са по-загрижени за околната среда?
    • Свързан ли е броят на симптомите, които пациентът има, с готовността му да приема лекарства?

    Коефициент на корелация на Спирман

    В статистиката Коефициент на корелация на Спирман се представя от r s или гръцката буква ρ ("rho"), поради което често се нарича Rho на Спирмън .

    Коефициентът на рангова корелация на Спирмън измерва както силата, така и посоката на връзката между ранговете на данните. Той може да бъде всякаква стойност от -1 до 1 и колкото по-близка е абсолютната стойност на коефициента до 1, толкова по-силна е връзката:

    • 1 е перфектна положителна корелация
    • -1 е перфектна отрицателна корелация
    • 0 означава липса на корелация

    Корелационна формула на Спирман

    В зависимост от това дали има или няма връзки в класирането (еднакъв ранг, присъден на две или повече наблюдения), коефициентът на корелация на Спирман може да се изчисли по една от следните формули.

    Ако има няма обвързани рангове , ще е достатъчна по-проста формула:

    Къде:

    • d i е разликата между двойка рангове
    • n е броят на наблюденията

    За да се справите с завързани класации , трябва да се използва пълната версия на корелационната формула на Спирман, която е леко модифицирана версия на r на Пиърсън:

    Къде:

    • R(x) и R(y) са ранговете на x и y променливи
    • R(x) и R(y) са средните редици

    Как да изчислим корелацията на Спирман в Excel с функцията CORREL

    За съжаление Excel не разполага с вградена функция за изчисляване на ранговия корелационен коефициент на Спирмън. Това обаче не означава, че ще трябва да си блъскате главата с горните формули. Като манипулираме малко Excel, можем да измислим много по-прост начин за изчисляване на корелацията на Спирмън.

    Като пример, нека се опитаме да разберем дали физическата ни активност има някаква връзка с кръвното ни налягане. В колона Б е посочен броят минути, които 10 мъже на една и съща възраст прекарват ежедневно във фитнес зала, а в колона В - систоличното им кръвно налягане.

    За да намерите коефициента на корелация на Спирман в Excel, изпълнете следните стъпки:

    1. Класирайте данните си

      Тъй като корелацията на Спирман оценява връзките между две променливи въз основа на техните рангове, трябва да класирате изходните си данни. Това може да стане бързо с помощта на функцията RANK.AVG на Excel.

      За да класирате първата променлива (физическа активност), въведете формулата по-долу в D2 и след това я преместете надолу в D11:

      =RANK.AVG(B2,$B$2:$B$11,0)

      За да класирате втората променлива (кръвното налягане), поставете следната формула в клетка E2 и я копирайте надолу по колоната:

      =RANK.AVG(C2,$C$2:$C$11,0)

      За да работят формулите правилно, не забравяйте да заключите диапазоните с абсолютни препратки към клетките.

      В този момент изходните ви данни трябва да изглеждат по следния начин:

    2. Намиране на коефициента на корелация на Спирман

      След като редиците са установени, можем да използваме функцията CORREL на Excel, за да получим rho на Спирман:

      =CORREL(D2:D11, E2:E11)

      Формулата дава коефициент -0,7576 (закръглен до четирицифрено число), който показва доста силна отрицателна корелация и ни позволява да заключим, че колкото повече човек спортува, толкова по-ниско е кръвното му налягане.

      Коефициентът на корелация на Пиърсън за същата извадка (-0,7445) показва малко по-слаба корелация, но все пак статистически значима:

    Хубавото на този метод е, че е бърз, лесен и работи независимо от това дали в класацията има връзки или не.

    Изчисляване на коефициента на корелация на Спирман в Excel с традиционна формула

    Ако не сте напълно сигурни, че функцията CORREL е изчислила правилно rho на Спирман, можете да проверите резултата с традиционната формула, използвана в статистиката:

    1. Намерете разликата между всяка двойка редици ( d ), като извадите единия ранг от другия:

      =D2-E2

      Тази формула се премества в F2 и след това се копира надолу по колоната.

    2. Повишаване на всяка разлика в ранга до степен две ( d2 ):

      =F2^2

      Тази формула се вписва в колона G.

    3. Съберете квадратните разлики:

      =SUM(G2:G11)

      Тази формула може да се използва във всяка празна клетка, в нашия случай G12.

      От следващата снимка на екрана вероятно ще разберете по-добре подредбата на данните:

    4. В зависимост от това дали наборът ви от данни има обвързани редици или не, използвайте една от тези формули за изчисляване на коефициента на корелация на Спирман.

    В нашия пример няма равенства, така че можем да използваме по-проста формула:

    С d2 равен на 290, и n (брой наблюдения), равен на 10, формулата претърпява следните трансформации:

    В резултат на това се получава -0,757575758, което напълно съвпада с коефициента на корелация на Спирман, изчислен в предишния пример.

    В Microsoft Excel горните изчисления могат да се извършат със следното уравнение:

    =1-(6*G12/(10*(10^2-1)))

    Където G12 е сумата от квадратните разлики в ранга (d2).

    Как да направите корелация на Спирман в Excel с помощта на графика

    Корелационните коефициенти в Excel измерват само линейни (Pearson) или монотонни (Spearman) връзки. Възможни са обаче и други асоциации. Така че, независимо от това каква корелация правите, винаги е добра идея да представите връзката между променливите в графика.

    За да съставите корелационна графика за класираните данни, трябва да направите следното:

    1. Изчислете ранговете, като използвате функцията RANK.AVG, както е обяснено в този пример.
    2. Изберете две колони с ранговете.
    3. Вмъкнете диаграма на разсейване XY. За целта щракнете върху Разпръскване диаграма икона в Вмъкване на в раздела Чатове група.
    4. Добавете линия на тенденцията към диаграмата си. Най-бързият начин е да щракнете върху Елементи на диаграмата бутон> Добавяне на Trendline... .
    5. Показване на стойността на R-квадрат на диаграмата. Щракнете два пъти върху линията на тенденцията, за да отворите нейния прозорец, да преминете към Опции за трендлиния и изберете Показване на стойността на R-квадрат на графиката кутия.
    6. Покажете повече цифри в стойността на R2 за по-голяма точност.

    В резултат на това ще получите визуално представяне на връзката между ранговете. Освен това ще получите Коефициент на детерминация (R2), чийто квадратен корен е коефициентът на корелация на Пиърсън (r). Но тъй като сте нанесли ранжираните данни, този коефициент на Пиърсън r не е нищо друго освен коефициент на Спирман (Spearman's rho).

    Забележка: R-квадратът е винаги положително число, следователно и изведеният коефициент на корелация на Спирман също ще бъде винаги положителен. За да добавите подходящ знак, просто погледнете линията във вашата корелационна графика - възходящият наклон показва положителна корелация (знак плюс), а низходящият наклон - отрицателна корелация (знак минус).

    В нашия случай R2 е равен на 0,5739210285. Използвайте функцията SQRT, за да намерите квадратния корен:

    =SQRT(0,5739210285)

    ...и ще получите вече познатия коефициент 0,757575758.

    Низходящият наклон на графиката показва отрицателна корелация, така че добавяме знака минус и получаваме правилния коефициент на корелация на Спирман от -0,757575758.

    Ето как можете да изчислите коефициента на рангова корелация на Спирмън в Excel. За да разгледате по-отблизо примерите, разгледани в този урок, можете да изтеглите нашата примерна работна книга по-долу. Благодаря ви, че прочетохте, и се надявам да се видим в нашия блог следващата седмица!

    Практическа работна тетрадка

    Рангова корелация на Спирман в Excel (.xlsx файл)

    Майкъл Браун е отдаден технологичен ентусиаст със страст към опростяване на сложни процеси с помощта на софтуерни инструменти. С повече от десетилетие опит в технологичната индустрия, той е усъвършенствал уменията си в Microsoft Excel и Outlook, както и в Google Sheets и Docs. Блогът на Майкъл е посветен на споделянето на неговите знания и опит с други, предоставяйки лесни за следване съвети и уроци за подобряване на продуктивността и ефективността. Независимо дали сте опитен професионалист или начинаещ, блогът на Michael предлага ценни прозрения и практически съвети за извличане на максимума от тези основни софтуерни инструменти.