Корреляция в Excel: коэффициент, матрица и график

  • Поделись Этим
Michael Brown

Учебное пособие объясняет основы корреляции в Excel, показывает, как рассчитать коэффициент корреляции, построить корреляционную матрицу и интерпретировать результаты.

Одним из самых простых статистических расчетов, которые можно выполнить в Excel, является корреляция. Несмотря на свою простоту, она очень полезна для понимания взаимосвязи между двумя или более переменными. Microsoft Excel предоставляет все необходимые инструменты для проведения корреляционного анализа, нужно только знать, как их использовать.

    Корреляция в Excel - основы

    Корреляция это мера, которая описывает силу и направление связи между двумя переменными. Она широко используется в статистике, экономике и социальных науках для составления бюджетов, бизнес-планов и т.п.

    Метод, используемый для изучения того, насколько тесно связаны переменные, называется корреляционный анализ .

    Вот несколько примеров сильной корреляции:

    • Количество съеденных калорий и ваш вес (положительная корреляция)
    • Температура на улице и ваши счета за отопление (отрицательная корреляция)

    А вот примеры данных, которые имеют слабую корреляцию или вообще не имеют корреляции:

    • Имя вашей кошки и ее любимая еда
    • Цвет глаз и рост

    Важно понимать, что корреляция показывает, насколько тесно связаны две переменные. Однако корреляция не означает причинно-следственную связь. Тот факт, что изменения одной переменной связаны с изменениями другой переменной, не означает, что одна переменная вызывает изменение другой.

    Если вам интересно изучить причинно-следственные связи и сделать прогнозы, сделайте шаг вперед и проведите линейный регрессионный анализ.

    Коэффициент корреляции в Excel - интерпретация корреляции

    Численная мера степени связи между двумя непрерывными переменными называется коэффициент корреляции (r).

    Значение коэффициента всегда находится в диапазоне от -1 до 1 и измеряет как силу, так и направление линейной связи между переменными.

    Прочность

    Чем больше абсолютное значение коэффициента, тем сильнее связь:

    • Крайние значения -1 и 1 указывают на идеальную линейную зависимость, когда все точки данных лежат на одной прямой. На практике идеальная корреляция, как положительная, так и отрицательная, наблюдается редко.
    • Коэффициент 0 указывает на отсутствие линейной связи между переменными. Это то, что вы, скорее всего, получите при использовании двух наборов случайных чисел.
    • Значения от 0 до +1/-1 представляют шкалу слабых, умеренных и сильных отношений. как r приближается к -1 или 1, сила взаимосвязи увеличивается.

    Направление

    Знак коэффициента (плюс или минус) указывает на направление взаимосвязи.

    • Позитив Коэффициенты представляют собой прямую корреляцию и создают на графике восходящий наклон - при увеличении одной переменной увеличивается и другая, и наоборот.
    • Негатив Коэффициенты представляют собой обратную корреляцию и создают на графике нисходящий наклон - при увеличении одной переменной другая переменная имеет тенденцию к уменьшению.

    Для лучшего понимания, пожалуйста, взгляните на следующие графики корреляции:

    • Коэффициент 1 означает идеальную положительную связь - при увеличении одной переменной пропорционально увеличивается другая.
    • Коэффициент -1 означает идеальную отрицательную связь - при увеличении одной переменной другая пропорционально уменьшается.
    • Коэффициент 0 означает отсутствие связи между двумя переменными - точки данных разбросаны по всему графику.

    Корреляция Пирсона

    В статистике измеряют несколько типов корреляции в зависимости от типа данных, с которыми вы работаете. В этом учебнике мы сосредоточимся на наиболее распространенном из них.

    Корреляция Пирсона , полное название Момент продуктовой корреляции Пирсона (PPMC), используется для оценки линейный взаимосвязи между данными, когда изменение одной переменной связано с пропорциональным изменением другой переменной. Проще говоря, корреляция Пирсона отвечает на вопрос: можно ли представить данные в виде линии?

    В статистике это самый популярный тип корреляции, и если вы имеете дело с "коэффициентом корреляции" без дополнительных оговорок, то, скорее всего, это будет Пирсон.

    Вот наиболее часто используемая формула для нахождения коэффициента корреляции Пирсона, также называемого R Пирсона :

    Иногда вы можете столкнуться с двумя другими формулами для расчета выборочный коэффициент корреляции (r) и коэффициент корреляции населения (ρ).

    Как выполнить корреляцию Пирсона в Excel

    Вычисление коэффициента корреляции Пирсона вручную включает в себя довольно много математики. К счастью, Microsoft Excel значительно упростил процесс. В зависимости от набора данных и поставленной цели вы можете использовать один из следующих методов:

    • Найдите коэффициент корреляции Пирсона с помощью функции CORREL.
    • Составьте корреляционную матрицу, выполнив Анализ данных.
    • Найдите коэффициенты множественной корреляции с помощью формулы.
    • Постройте график корреляции, чтобы получить визуальное представление взаимосвязи данных.

    Как рассчитать коэффициент корреляции в Excel

    Чтобы вычислить коэффициент корреляции вручную, вам придется использовать эту длинную формулу. Чтобы найти коэффициент корреляции в Excel, воспользуйтесь функцией CORREL или PEARSON и получите результат за доли секунды.

    Функция КОРРЕЛ в Excel

    Функция CORREL возвращает коэффициент корреляции Пирсона для двух наборов значений. Ее синтаксис очень прост и понятен:

    CORREL(array1, array2)

    Где:

    • Массив1 это первый диапазон значений.
    • Массив2 это второй диапазон значений.

    Два массива должны иметь одинаковую длину.

    Предположим, что у нас есть набор независимых переменных ( x ) в B2:B13 и зависимые переменные (y) в C2:C13, наша формула коэффициента корреляции выглядит следующим образом:

    =CORREL(B2:B13, C2:C13)

    Или мы можем поменять диапазоны местами и получить тот же результат:

    =CORREL(C2:C13, B2:B13)

    В любом случае, формула показывает сильную отрицательную корреляцию (около -0,97) между среднемесячной температурой и количеством проданных обогревателей:

    3 вещи, которые вы должны знать о функции КОРРЕЛ в Excel

    Чтобы успешно рассчитать коэффициент корреляции в Excel, запомните эти 3 простых факта:

    • Если одна или несколько ячеек массива содержат текст, логические значения или пробелы, такие ячейки игнорируются; ячейки с нулевыми значениями вычисляются.
    • Если предоставленные массивы имеют разную длину, возвращается ошибка #N/A.
    • Если любой из массивов пуст или если стандартное отклонение их значений равно нулю, возникает ошибка #DIV/0!

    Функция Excel PEARSON

    Функция PEARSON в Excel делает то же самое - вычисляет коэффициент корреляции Пирсона (Pearson Product Moment Correlation).

    PEARSON(array1, array2)

    Где:

    • Массив1 это диапазон независимых значений.
    • Массив2 это диапазон зависимых значений.

    Поскольку PEARSON и CORREL оба рассчитывают коэффициент линейной корреляции Пирсона, их результаты должны совпадать, и они обычно совпадают в последних версиях Excel 2007 - Excel 2019.

    Однако в Excel 2003 и более ранних версиях функция PEARSON может показывать некоторые ошибки округления. Поэтому в старых версиях рекомендуется использовать CORREL, а не PEARSON.

    На нашем наборе данных обе функции показывают одинаковые результаты:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Как составить корреляционную матрицу в Excel с помощью анализа данных

    Когда вам нужно проверить взаимосвязи между более чем двумя переменными, имеет смысл построить корреляционную матрицу, которую иногда называют коэффициент множественной корреляции .

    Сайт корреляционная матрица это таблица, которая показывает коэффициенты корреляции между переменными на пересечении соответствующих строк и столбцов.

    Корреляционная матрица в Excel строится с помощью функции Корреляция инструмент из Пакет инструментов анализа Эта надстройка доступна во всех версиях Excel с 2003 по Excel 2019, но по умолчанию она не включена. Если вы еще не активировали ее, сделайте это сейчас, выполнив действия, описанные в разделе Как включить Data Analysis ToolPak в Excel.

    Добавив инструменты анализа данных на ленту Excel, вы будете готовы к проведению корреляционного анализа:

    1. В правом верхнем углу Данные вкладка> Анализ группу, нажмите кнопку Анализ данных кнопка.
    2. В Анализ данных в диалоговом окне выберите Корреляция и нажмите OK.
    3. В Корреляция окне, настройте параметры таким образом:
      • Нажмите в Входной диапазон и выберите диапазон с исходными данными, включая заголовки столбцов (в нашем случае B1:D13).
      • В Сгруппированные по раздел, убедитесь, что Колонки выбран (учитывая, что ваши исходные данные сгруппированы по столбцам).
      • Выберите Ярлыки в первом ряду флажок, если выбранный диапазон содержит заголовки столбцов.
      • Выберите нужный вариант вывода. Чтобы матрица находилась на одном листе, выберите Выходной диапазон и указать ссылку на крайнюю левую ячейку, в которую должна быть выведена матрица (в данном примере A15).

    После этого нажмите кнопку OK кнопка:

    Ваша матрица коэффициентов корреляции готова и должна выглядеть примерно так, как показано в следующем разделе.

    Интерпретация результатов корреляционного анализа

    В корреляционной матрице Excel можно найти коэффициенты на пересечении строк и столбцов. Если координаты столбца и строки совпадают, выводится значение 1.

    В приведенном выше примере нас интересует корреляция между зависимой переменной (количество проданных обогревателей) и двумя независимыми переменными (среднемесячная температура и расходы на рекламу). Поэтому мы смотрим только на числа на пересечении этих строк и столбцов, которые выделены на скриншоте ниже:

    Отрицательный коэффициент -0,97 (округленный до 2 знаков после запятой) показывает сильную обратную корреляцию между месячной температурой и продажами обогревателей - по мере повышения температуры продается меньше обогревателей.

    Положительный коэффициент 0,97 (округленный до 2 знаков после запятой) указывает на сильную прямую связь между рекламным бюджетом и продажами - чем больше денег вы тратите на рекламу, тем выше продажи.

    Как провести множественный корреляционный анализ в Excel с помощью формул

    Построить корреляционную таблицу с помощью инструмента Анализ данных очень просто. Однако эта матрица статична, что означает, что вам придется проводить корреляционный анализ заново при каждом изменении исходных данных.

    Хорошей новостью является то, что вы можете легко построить подобную таблицу корреляции самостоятельно, и эта матрица будет автоматически обновляться при каждом изменении исходных значений.

    Чтобы сделать это, используйте эту общую формулу:

    КОРРЕЛ(OFFSET( первый_переменный_диапазон , 0, ROWS($1:1)-1), OFFSET( первый_переменный_диапазон , 0, COLUMNS($A:A)-1))

    Важное замечание! Чтобы формула работала, необходимо зафиксировать первый диапазон переменных с помощью абсолютных ссылок на ячейки.

    В нашем случае диапазон первой переменной составляет $B$2:$B$13 (обратите внимание на знак $, который фиксирует ссылку), и наша корреляционная формула принимает такой вид:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Когда формула готова, давайте построим корреляционную матрицу:

    1. В первой строке и первом столбце матрицы введите метки переменных в том же порядке, в котором они отображаются в исходной таблице (см. скриншот ниже).
    2. Введите приведенную выше формулу в самую левую ячейку (в нашем случае B16).
    3. Перетащите формулу вниз и вправо, чтобы скопировать ее в необходимое количество строк и столбцов (в нашем примере 3 строки и 3 столбца).

    В результате мы получили следующую матрицу с множественными коэффициентами корреляции. Обратите внимание, что коэффициенты, возвращаемые нашей формулой, точно такие же, как и выводимые Excel в предыдущем примере (соответствующие коэффициенты выделены):

    Как работает эта формула

    Как вы уже знаете, функция Excel КОРРЕЛ возвращает коэффициент корреляции для двух заданных вами наборов переменных. Основная сложность заключается в том, чтобы поставить соответствующие диапазоны в соответствующие ячейки матрицы. Для этого вы вводите в формулу только первый диапазон переменных и используете следующие функции для внесения необходимых корректировок:

    • OFFSET - возвращает диапазон, который находится на заданном количестве строк и столбцов от указанного диапазона.
    • ROWS и COLUMNS - возвращают количество строк и столбцов в диапазоне, соответственно. В нашей формуле корреляции оба используются с одной целью - получить количество столбцов для смещения от начального диапазона. И это достигается ловким использованием абсолютных и относительных ссылок.

    Чтобы лучше понять логику, давайте посмотрим, как формула вычисляет коэффициенты, выделенные на скриншоте выше.

    Сначала рассмотрим формулу в B18, которая находит корреляцию между месячной температурой (B2:B13) и проданными обогревателями (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    В первой функции OFFSET, ROWS($1:1) превратилась в ROWS($1:3), потому что вторая координата относительная, поэтому она меняется в зависимости от относительного положения строки, в которую копируется формула (2 строки вниз). Таким образом, ROWS() возвращает 3, из которой мы вычитаем 1 и получаем диапазон, который находится на 2 столбца правее исходного диапазона, т.е. $D$2:$D$13 (продажи обогревателей).

    Второй OFFSET не изменяет заданный диапазон $B$2:$B$13 (температура), потому что COLUMNS($A:A)-1 возвращает ноль.

    В результате наша длинная формула превращается в простую CORREL($D$2:$D$13, $B$2:$B$13) и возвращает именно тот коэффициент, который нам нужен.

    Формула в C18, которая рассчитывает коэффициент корреляции для затрат на рекламу (C2:C13) и продаж (D2:D13), работает аналогичным образом:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Первая функция OFFSET абсолютно аналогична описанной выше, возвращая диапазон $D$2:$D$13 (продажи обогревателей).

    Во втором OFFSET COLUMNS($A:A)-1 меняется на COLUMNS($A:B)-1, поскольку мы скопировали формулу на 1 столбец вправо. Следовательно, OFFSET получает диапазон, который находится на 1 столбец правее исходного диапазона, т.е. $C$2:$C$13 (стоимость рекламы).

    Как построить график корреляции в Excel

    При проведении корреляции в Excel лучшим способом получить визуальное представление о взаимосвязях между данными является построение диаграммы диаграмма рассеяния с линия тренда Вот как:

    1. Выберите два столбца с числовыми данными, включая заголовки столбцов. Порядок следования столбцов важен: столбец независимый переменная должна находиться в левом столбце, так как этот столбец будет откладываться на оси x; переменная зависимый переменная должна находиться в правом столбце, так как она будет откладываться на оси y.
    2. На Вставка во вкладке Чаты группу, нажмите кнопку Разброс значок диаграммы. Это немедленно вставит диаграмму разброса XY в ваш рабочий лист.
    3. Щелкните правой кнопкой мыши любую точку данных на графике и выберите Добавить линию тренда... из контекстного меню.

    Подробную пошаговую инструкцию см:

    • Как создать диаграмму рассеяния в Excel
    • Как добавить линию тренда на диаграмму Excel

    Для нашего набора данных графики корреляции выглядят так, как показано на рисунке ниже. Кроме того, мы отобразили значение R-квадрат, которое также называется Коэффициент детерминации Это значение показывает, насколько хорошо линия тренда соответствует данным - чем ближе R2 к 1, тем лучше соответствие.

    По значению R2, отображаемому на диаграмме рассеяния, вы можете легко рассчитать коэффициент корреляции:

    1. Для большей точности заставьте Excel показывать больше цифр в значении R-квадрат, чем это делается по умолчанию.
    2. Щелкните значение R2 на графике, выделите его с помощью мыши и нажмите Ctrl + C, чтобы скопировать его.
    3. Получите квадратный корень из R2 либо с помощью функции SQRT, либо возведя скопированное значение R2 в степень 0,5.

    Например, значение R2 на втором графике равно 0,9174339392. Таким образом, вы можете найти коэффициент корреляции для Реклама и Продажа обогревателей с помощью одной из этих формул:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Как вы можете убедиться, рассчитанные таким образом коэффициенты прекрасно согласуются с коэффициентами корреляции, найденными в предыдущих примерах, кроме знака :

    Потенциальные проблемы с корреляцией в Excel

    Сайт Момент продуктовой корреляции Пирсона раскрывает только линейный То есть, ваши переменные могут быть сильно связаны между собой другим, криволинейным способом, и при этом коэффициент корреляции будет равен или близок к нулю.

    Корреляция Пирсона не способна различить зависимый и независимый Например, при использовании функции CORREL для поиска связи между среднемесячной температурой и количеством проданных обогревателей, мы получили коэффициент -0,97, что указывает на высокую отрицательную корреляцию. Однако можно поменять переменные местами и получить тот же результат. Так, кто-то может сделать вывод, что увеличение продаж обогревателей приводит к снижению температуры, что, очевидно, не имеет никакого значения.Поэтому, выполняя корреляционный анализ в Excel, будьте внимательны к данным, которые вы предоставляете.

    Кроме того, корреляция Пирсона очень чувствительна к выбросы Если у вас есть одна или несколько точек данных, которые сильно отличаются от остальных данных, вы можете получить искаженную картину взаимосвязи между переменными. В этом случае лучше использовать ранговую корреляцию Спирмена.

    Вот как сделать корреляцию в Excel. Для более детального рассмотрения примеров, рассмотренных в этом руководстве, вы можете скачать наш образец рабочей книги ниже. Я благодарю вас за чтение и надеюсь увидеть вас в нашем блоге на следующей неделе!

    Практическая тетрадь

    Вычислите корреляцию в Excel (файл.xlsx)

    Майкл Браун — увлеченный технологический энтузиаст, стремящийся упростить сложные процессы с помощью программных инструментов. Имея более чем десятилетний опыт работы в технологической отрасли, он отточил свои навыки в Microsoft Excel и Outlook, а также в Google Sheets и Docs. Блог Майкла посвящен тому, чтобы делиться своими знаниями и опытом с другими, предоставляя простые советы и учебные пособия для повышения производительности и эффективности. Являетесь ли вы опытным профессионалом или новичком, в блоге Майкла вы найдете ценную информацию и практические советы, которые помогут вам максимально эффективно использовать эти важные программные инструменты.