Зміст
У посібнику простою мовою пояснюються основи кореляції Спірмена та показано, як розрахувати коефіцієнт рангової кореляції Спірмена в Excel.
При проведенні кореляційного аналізу в Excel в більшості випадків ви будете мати справу з кореляцією Пірсона. Але оскільки коефіцієнт кореляції Пірсона вимірює тільки лінійний зв'язок між двома змінними, він працює не для всіх типів даних - ваші змінні можуть бути сильно пов'язані нелінійним чином і при цьому мати коефіцієнт, близький до нуля. У таких обставинах ви можете скористатися критерієм Спірменарангова кореляція замість Пірсона.
Кореляція Спірмена - основи
На сьогоднішній день, на жаль, це не так. Кореляція Спірмена непараметрична версія коефіцієнта кореляції Пірсона, що вимірює ступінь зв'язку між двома змінними на основі їх рангів.
На сьогоднішній день, на жаль, це не так. Моментна кореляція продукту Пірсона тестує лінійний зв'язок між двома неперервними змінними. Лінійним називається зв'язок, коли дві змінні змінюються в одному напрямку з постійною швидкістю.
Рангова кореляція Спірмена оцінює монотонний При монотонному зв'язку змінні також мають тенденцію змінюватися разом, але не обов'язково з постійною швидкістю.
Коли робити кореляцію Спірмена
Кореляційний аналіз Спірмена слід використовувати в будь-якій з наступних обставин, коли не виконуються основні припущення кореляції Пірсона:
- Якщо ваші дані демонструють нелінійний зв'язку або не мають звичайного розподілу.
- Якщо хоча б одна змінна є порядковий Якщо Ваші значення можна розмістити в порядку "перший, другий, третій...", то Ви маєте справу з порядковими даними.
- У разі наявності значних викиди На відміну від кореляції Пірсона, кореляція Спірмена не чутлива до викидів, оскільки виконує розрахунки за рангами, тому різниця між фактичними значеннями не має значення.
Наприклад, за допомогою кореляції Спірмена можна знайти відповіді на наступні питання:
- Чи люди з вищим рівнем освіти більше переймаються проблемами довкілля?
- Чи пов'язана кількість симптомів у пацієнта з його готовністю приймати ліки?
Коефіцієнт кореляції Спірмена
За статистикою, впродовж останніх років в Україні спостерігається Коефіцієнт кореляції Спірмена представлений або r s або грецьку літеру ρ ("ро"), через що його часто називають Синдром Спірмена .
Коефіцієнт рангової кореляції Спірмена вимірює як силу, так і напрямок зв'язку між рангами даних. Він може мати будь-яке значення від -1 до 1, і чим ближче абсолютне значення коефіцієнта до 1, тим сильніший зв'язок:
- 1 - ідеальна позитивна кореляція
- -1 - ідеальна негативна кореляція
- 0 - кореляція відсутня
Формула рангової кореляції Спірмена
Залежно від наявності чи відсутності зв'язків у ранжуванні (однаковий ранг, присвоєний двом або більше спостереженням), коефіцієнт кореляції Спірмена може бути розрахований за однією з наведених нижче формул.
За наявності немає зв'язаних звань то підійде простіша формула:
Де:
- d i це різниця між парою рангів
- n кількість спостережень
Займатися зрівняні чини слід використовувати повну версію кореляційної формули Спірмена, яка є дещо модифікованою версією r Пірсона:
Де:
- R(x) та R(y) - це ранги x і y змінні
- R(x) та R(y) - середні ранги
Як розрахувати кореляцію Спірмена в Excel за допомогою функції CORREL
На жаль, Excel не має вбудованої функції для розрахунку коефіцієнта рангової кореляції Спірмена. Однак це не означає, що вам доведеться ламати голову над наведеними вище формулами. Трохи попрацювавши з Excel, ми можемо придумати набагато простіший спосіб зробити кореляцію Спірмена.
Для прикладу спробуємо з'ясувати, чи має наша фізична активність якесь відношення до нашого артеріального тиску. У колонці В ми маємо кількість хвилин, які 10 чоловіків одного віку проводять щодня в тренажерному залі, а в колонці С - їх систолічний артеріальний тиск.
Щоб знайти коефіцієнт кореляції Спірмена в Excel, виконайте такі дії:
- Оцініть свої дані
Оскільки кореляція Спірмена оцінює асоціації між двома змінними на основі їх рангів, вам необхідно ранжувати вихідні дані. Це можна швидко зробити за допомогою функції Excel RANK.AVG.
Для ранжування першої змінної (фізична активність) введіть наведену нижче формулу в D2, а потім перетягніть її вниз до D11:
=RANK.AVG(B2,$B$2:$B$11,0)
Для ранжування другої змінної (артеріальний тиск) введіть наступну формулу в комірку E2 і скопіюйте її вниз по стовпчику:
=RANK.AVG(C2,$C$2:$C$11,0)
Для коректної роботи формул обов'язково зафіксуйте діапазони з абсолютними посиланнями на комірки.
На цьому етапі ваші вихідні дані повинні виглядати приблизно так:
- Знайти коефіцієнт кореляції Спірмена
Після встановлення рангів ми можемо використовувати функцію КОРРЕЛЯЦІЯ Excel для отримання коефіцієнта Спірмена:
=CORREL(D2:D11, E2:E11)
Формула повертає коефіцієнт -0,7576 (з округленням до 4-х знаків), що показує досить сильну негативну кореляцію і дозволяє зробити висновок, що чим більше людина займається фізичними вправами, тим нижче у неї артеріальний тиск.
Коефіцієнт кореляції Пірсона для цієї ж вибірки (-0,7445) свідчить про дещо слабший зв'язок, але все ж таки статистично значущий:
Принадність цього методу в тому, що він швидкий, простий і працює незалежно від того, є зв'язки в рейтингу чи ні.
Розрахувати коефіцієнт кореляції Спірмена в Excel за традиційною формулою
Якщо ви не зовсім впевнені, що функція CORREL розрахувала rho Спірмена правильно, ви можете перевірити результат за традиційною формулою, яка використовується в статистиці. Ось як це зробити:
- Знайдіть різницю між кожною парою рангів ( d ) шляхом віднімання одного рангу від іншого:
=D2-E2
Ця формула потрапляє в F2, а потім копіюється вниз по стовпчику.
- Підносимо кожну різницю рангів до другого степеня ( d2 ):
=F2^2
Ця формула переходить до колонки G.
- Складіть різниці в квадратах:
=SUM(G2:G11)
Ця формула може потрапити в будь-яку порожню комірку, в нашому випадку G12.
Наведений нижче скріншот, ймовірно, допоможе Вам краще зрозуміти розташування даних:
Дивіться також: Як порахувати слова в Excel - приклади формул - Залежно від того, чи є у вашому наборі даних зв'язані ранги, використовуйте одну з цих формул для розрахунку коефіцієнта кореляції Спірмена.
У нашому прикладі зв'язки відсутні, тому можна скористатися більш простою формулою:
З d2 дорівнює 290, та n (кількість спостережень), що дорівнює 10, формула зазнає наступних перетворень:
В результаті отримуємо -0,757575758, що чудово узгоджується з коефіцієнтом кореляції Спірмена, розрахованим у попередньому прикладі.
У Microsoft Excel наведені вище розрахунки можна виконати за допомогою наступного рівняння:
=1-(6*G12/(10*(10^2-1)))
Де G12 - сума квадратів різниць рангів (d2).
Як зробити кореляцію Спірмена в Excel за допомогою графіка
Коефіцієнти кореляції в Excel вимірюють лише лінійні (Пірсона) або монотонні (Спірмена) зв'язки. Однак можливі й інші асоціації. Отже, незалежно від того, яку кореляцію ви робите, завжди корисно представити зв'язок між змінними на графіку.
Щоб побудувати графік кореляції для проранжованих даних, потрібно зробити наступне:
- Обчисліть ранги за допомогою функції RANK.AVG, як описано в цьому прикладі.
- Виділіть два стовпчики із званнями.
- Вставте діаграму розсіювання XY. Для цього натисніть кнопку Розкид діаграма на іконці Вставка у вкладці Чати група.
- Додайте лінію тренду на графік. Найшвидший спосіб - натиснути кнопку Елементи діаграми кнопку>; Додати Trendline... .
- Відобразити значення R-квадрата на графіку. Двічі клацніть лінію тренду, щоб відкрити її панель, перейдіть на вкладку Опції лінії тренду і виберіть вкладку Відображення значення R-квадрата на графіку Ящик.
- Покажіть більше цифр у значенні R2 для кращої точності.
В результаті ви отримаєте наочне уявлення про співвідношення між рангами. Крім того, ви отримаєте Коефіцієнт детермінації (R2), квадратний корінь з якого є коефіцієнтом кореляції Пірсона (r). Але оскільки Ви побудували графік ранжованих даних, то цей r Пірсона є нічим іншим, як rho Спірмена.
Примітка: R-квадрат завжди є додатним числом, отже, виведений коефіцієнт рангової кореляції Спірмена також буде завжди додатним. Щоб додати відповідний знак, просто подивіться на лінію на графіку кореляції - нахил вгору вказує на позитивну кореляцію (знак плюс), а нахил вниз вказує на негативну кореляцію (знак мінус).
У нашому випадку R2 дорівнює 0,5739210285. Для знаходження квадратного кореня скористаємося функцією SQRT:
=SQRT(0.5739210285)
...і ви отримаєте вже знайомий коефіцієнт 0,757575758.
Спадний нахил на графіку демонструє негативну кореляцію, тому додаємо знак мінус і отримуємо коректний коефіцієнт кореляції Спірмена -0,757575758.
Ось так можна розрахувати коефіцієнт рангової кореляції Спірмена в Excel. Для більш детального ознайомлення з прикладами, розглянутими в цьому уроці, ви можете завантажити наш зразок робочого зошита нижче. Дякую за прочитання і сподіваюся побачити вас на нашому блозі наступного тижня!
Практичний посібник
Рангова кореляція Спірмена в Excel (файл .xlsx)