Ранговая корреляция Спирмена в Excel: формула и график

  • Поделись Этим
Michael Brown

В учебном пособии простым языком объясняются основы корреляции Спирмена и показывается, как рассчитать коэффициент ранговой корреляции Спирмена в Excel.

При проведении корреляционного анализа в Excel в большинстве случаев вы будете иметь дело с корреляцией Пирсона. Но поскольку коэффициент корреляции Пирсона измеряет только линейную связь между двумя переменными, он не подходит для всех типов данных - ваши переменные могут быть сильно связаны нелинейным образом, а коэффициент все равно будет близок к нулю. В таких обстоятельствах вы можете использовать коэффициент Спирмена.ранговой корреляции вместо корреляции Пирсона.

    Корреляция Спирмена - основы

    Сайт Корреляция Спирмена это непараметрическая версия коэффициента корреляции Пирсона, который измеряет степень связи между двумя переменными на основе их рангов.

    Сайт Момент продуктовой корреляции Пирсона проверяет линейный связь между двумя непрерывными переменными. Линейная означает связь, когда две переменные изменяются в одном направлении с постоянной скоростью.

    Ранговая корреляция Спирмена оценивает монотонный связь между ранжированными значениями. При монотонной связи переменные также имеют тенденцию изменяться вместе, но не обязательно с постоянной скоростью.

    Когда проводить корреляцию Спирмена

    Корреляционный анализ Спирмена должен использоваться в любом из следующих случаев, когда не выполняются основные предположения корреляции Пирсона:

    1. Если ваши данные демонстрируют нелинейный отношения или не являются нормально распределенными.
    2. Если хотя бы одна переменная порядковый Если ваши значения можно расположить в порядке "первый, второй, третий...", вы имеете дело с порядковыми данными.
    3. Если есть значительные выбросы В отличие от корреляции Пирсона, корреляция Спирмена не чувствительна к отклонениям, поскольку она выполняет вычисления на рангах, поэтому разница между фактическими значениями не имеет значения.

    Например, вы можете использовать корреляцию Спирмена, чтобы найти ответы на следующие вопросы:

    • Являются ли люди с более высоким уровнем образования более озабоченными состоянием окружающей среды?
    • Связано ли количество симптомов у пациента с его готовностью принимать лекарства?

    Коэффициент корреляции Спирмена

    В статистике Коэффициент корреляции Спирмена представлен либо r s или греческая буква ρ ("rho"), поэтому его часто называют Ро Спирмена .

    Коэффициент ранговой корреляции Спирмена измеряет силу и направление связи между рангами данных. Он может иметь любое значение от -1 до 1, и чем ближе абсолютное значение коэффициента к 1, тем сильнее связь:

    • 1 - идеальная положительная корреляция
    • -1 - идеальная отрицательная корреляция
    • 0 - нет корреляции

    Формула ранговой корреляции Спирмена

    В зависимости от наличия или отсутствия связей в ранжировании (одинаковый ранг, присвоенный двум или более наблюдениям), коэффициент корреляции Спирмена может быть рассчитан по одной из следующих формул.

    Если есть нет связанных рангов , подойдет более простая формула:

    Где:

    • d i это разница между парой рангов
    • n количество наблюдений

    Чтобы справиться с связанные ряды Необходимо использовать полную версию корреляционной формулы Спирмена, которая является слегка модифицированной версией r Пирсона:

    Где:

    • R(x) и R(y) - это ранги x и y переменные
    • R(x) и R(y) - средние ранги

    Как рассчитать корреляцию Спирмена в Excel с помощью функции CORREL

    К сожалению, в Excel нет встроенной функции для вычисления коэффициента ранговой корреляции Спирмена. Однако это не значит, что вам придется ломать голову над приведенными выше формулами. Немного поработав с Excel, мы можем придумать гораздо более простой способ вычисления корреляции Спирмена.

    В качестве примера попробуем выяснить, связана ли наша физическая активность с нашим кровяным давлением. В столбце В приведено количество минут, которые 10 мужчин одного возраста ежедневно проводят в спортзале, а в столбце С - их систолическое кровяное давление.

    Чтобы найти коэффициент корреляции Спирмена в Excel, выполните следующие действия:

    1. Ранжируйте свои данные

      Поскольку корреляция Спирмена оценивает ассоциации между двумя переменными на основе их рангов, вам необходимо ранжировать исходные данные. Это можно быстро сделать с помощью функции Excel RANK.AVG.

      Чтобы ранжировать первую переменную (физическую активность), введите приведенную ниже формулу в D2, а затем перетащите ее вниз в D11:

      =RANK.AVG(B2,$B$2:$B$11,0)

      Чтобы ранжировать вторую переменную (кровяное давление), введите следующую формулу в ячейку E2 и скопируйте ее вниз по столбцу:

      =RANK.AVG(C2,$C$2:$C$11,0)

      Чтобы формулы работали правильно, пожалуйста, убедитесь, что диапазоны фиксируются с абсолютными ссылками на ячейки.

      На этом этапе ваши исходные данные должны выглядеть примерно так:

    2. Найти коэффициент корреляции Спирмена

      Теперь, когда ранги установлены, мы можем использовать функцию Excel CORREL для получения rho Спирмена:

      =CORREL(D2:D11, E2:E11)

      Формула дает коэффициент -0,7576 (округленный до 4 цифр), что свидетельствует о достаточно сильной отрицательной корреляции и позволяет сделать вывод, что чем больше человек занимается спортом, тем ниже у него артериальное давление.

      Коэффициент корреляции Пирсона для той же выборки (-0,7445) указывает на немного более слабую корреляцию, но все же статистически значимую:

    Прелесть этого метода в том, что он быстрый, простой и работает независимо от наличия или отсутствия связей в рейтинге.

    Вычислите коэффициент корреляции Спирмена в Excel с помощью традиционной формулы

    Если вы не совсем уверены, что функция CORREL правильно вычислила rho Спирмена, вы можете проверить результат с помощью традиционной формулы, используемой в статистике. Вот как это сделать:

    1. Найдите разницу между каждой парой рангов ( d ) путем вычитания одного ранга из другого:

      =D2-E2

      Эта формула попадает в F2 и затем копируется вниз по столбцу.

    2. Возведите каждую разность рангов в степень двойки ( d2 ):

      =F2^2

      Эта формула попадает в колонку G.

    3. Сложите квадраты разностей:

      =SUM(G2:G11)

      Эта формула может попасть в любую пустую ячейку, в нашем случае G12.

      Из следующего снимка экрана вы, вероятно, сможете лучше понять расположение данных:

    4. В зависимости от того, есть ли в вашем наборе данных связанные ранги или нет, используйте одну из этих формул для расчета коэффициента корреляции Спирмена.

    В нашем примере нет ничьих, поэтому мы можем использовать более простую формулу:

    С d2 равна 290, и n (число наблюдений), равное 10, формула претерпевает следующие преобразования:

    В результате вы получите -0,757575758, что прекрасно согласуется с коэффициентом корреляции Спирмена, рассчитанным в предыдущем примере.

    В Microsoft Excel приведенные выше расчеты можно выполнить с помощью следующего уравнения:

    =1-(6*G12/(10*(10^2-1)))

    Где G12 - сумма квадратов ранговых разностей (d2).

    Как выполнить корреляцию Спирмена в Excel с помощью графика

    Коэффициенты корреляции в Excel измеряют только линейные (Пирсон) или монотонные (Спирмен) связи. Однако возможны и другие ассоциации. Поэтому, независимо от того, какую корреляцию вы проводите, всегда полезно представить связь между переменными в виде графика.

    Чтобы построить корреляционный график для ранжированных данных, вот что вам нужно сделать:

    1. Рассчитайте ранги с помощью функции RANK.AVG, как описано в этом примере.
    2. Выберите два столбца с рангами.
    3. Вставьте диаграмму разброса XY. Для этого нажмите кнопку Разброс график значок на Вставка во вкладке Чаты группа.
    4. Добавьте линию тренда на ваш график. Самый быстрый способ - щелкнуть по кнопке Элементы диаграммы кнопка> Добавить линию тренда... .
    5. Отображение значения R-квадрат на графике. Дважды щелкните на линии тренда, чтобы открыть ее панель, переключитесь на панель Параметры линии тренда выберите вкладку Отображение значения R-квадрат на графике коробка.
    6. Покажите больше цифр в значении R2 для большей точности.

    В результате вы получите наглядное представление взаимосвязи между рангами. Кроме того, вы получите Коэффициент детерминации (R2), квадратный корень из которого является коэффициентом корреляции Пирсона (r). Но поскольку вы построили график ранжированных данных, этот r Пирсона есть не что иное, как rho Спирмена.

    Примечание. R-квадрат - всегда положительное число, поэтому вычисленный коэффициент ранговой корреляции Спирмена также будет всегда положительным. Чтобы добавить соответствующий знак, просто посмотрите на линию на вашем графике корреляции - наклон вверх указывает на положительную корреляцию (знак плюс), а наклон вниз - на отрицательную корреляцию (знак минус).

    В нашем случае R2 равен 0,5739210285. Используйте функцию SQRT, чтобы найти квадратный корень:

    =SQRT(0.5739210285)

    ...и вы получите уже знакомый коэффициент 0,757575758.

    Нисходящий наклон графика показывает отрицательную корреляцию, поэтому мы добавляем знак минус и получаем правильный коэффициент корреляции Спирмена -0,757575758.

    Вот как можно вычислить коэффициент ранговой корреляции Спирмена в Excel. Для более детального рассмотрения примеров, рассмотренных в этом руководстве, вы можете скачать наш образец рабочей книги ниже. Я благодарю вас за чтение и надеюсь увидеть вас в нашем блоге на следующей неделе!

    Практическая тетрадь

    Ранговая корреляция Спирмена в Excel (файл.xlsx)

    Майкл Браун — увлеченный технологический энтузиаст, стремящийся упростить сложные процессы с помощью программных инструментов. Имея более чем десятилетний опыт работы в технологической отрасли, он отточил свои навыки в Microsoft Excel и Outlook, а также в Google Sheets и Docs. Блог Майкла посвящен тому, чтобы делиться своими знаниями и опытом с другими, предоставляя простые советы и учебные пособия для повышения производительности и эффективности. Являетесь ли вы опытным профессионалом или новичком, в блоге Майкла вы найдете ценную информацию и практические советы, которые помогут вам максимально эффективно использовать эти важные программные инструменты.