Кореляція в Excel: коефіцієнт, матриця та графік

  • Поділитися Цим
Michael Brown

У посібнику пояснюються основи кореляції в Excel, показано, як розрахувати коефіцієнт кореляції, побудувати кореляційну матрицю та інтерпретувати отримані результати.

Одним з найпростіших статистичних розрахунків, які можна виконати в Excel, є кореляційний аналіз. Незважаючи на свою простоту, він є дуже корисним для розуміння взаємозв'язків між двома або більше змінними. Microsoft Excel надає всі необхідні інструменти для проведення кореляційного аналізу, потрібно лише знати, як ними користуватися.

    Кореляція в Excel - основи

    Кореляція це міра, яка описує силу та напрямок зв'язку між двома змінними. Вона зазвичай використовується в статистиці, економіці та соціальних науках для бюджетів, бізнес-планів тощо.

    Метод, який використовується для вивчення того, наскільки тісно пов'язані між собою змінні, називається кореляційний аналіз .

    Наведемо кілька прикладів сильної кореляції:

    • Кількість калорій, яку ви споживаєте, та ваша вага (позитивна кореляція)
    • Температура на вулиці та Ваші рахунки за опалення (від'ємна кореляція)

    А ось приклади даних, які мають слабку кореляцію або взагалі не мають кореляції:

    • Ім'я вашого кота та його улюблений корм
    • Колір ваших очей і ваш зріст

    Важливо розуміти, що кореляція лише показує, наскільки тісно пов'язані дві змінні. Кореляція, однак, не означає причинно-наслідковий зв'язок. Той факт, що зміни в одній змінній пов'язані зі змінами в іншій змінній, не означає, що одна змінна насправді спричиняє зміни в іншій.

    Якщо вам цікаво вивчати причинно-наслідкові зв'язки і робити прогнози, зробіть крок вперед і проведіть лінійний регресійний аналіз.

    Коефіцієнт кореляції в Excel - інтерпретація кореляції

    Числова міра ступеня зв'язку між двома неперервними змінними називається коефіцієнт кореляції (r).

    Значення коефіцієнта завжди знаходиться в діапазоні від -1 до 1 і вимірює як силу, так і напрямок лінійного зв'язку між змінними.

    Сила

    Чим більше абсолютне значення коефіцієнта, тим сильніший зв'язок:

    • Крайні значення -1 та 1 вказують на ідеальну лінійну залежність, коли всі точки даних лежать на одній прямій. На практиці ідеальна кореляція, як позитивна, так і негативна, спостерігається рідко.
    • Коефіцієнт 0 вказує на відсутність лінійного зв'язку між змінними. Це те, що ви, швидше за все, отримаєте з двома наборами випадкових чисел.
    • Значення від 0 до +1/-1 представляють шкалу слабких, помірних та сильних зв'язків. r наближається до -1 або 1, сила зв'язку зростає.

    Напрямок

    Знак коефіцієнта (плюс або мінус) вказує на напрямок зв'язку.

    • Позитивний коефіцієнти відображають пряму кореляцію і створюють висхідний нахил на графіку - зі збільшенням однієї змінної збільшується й інша, і навпаки.
    • Негативно коефіцієнти відображають обернену кореляцію і створюють спадний нахил на графіку - зі збільшенням однієї змінної, інша змінна має тенденцію до зменшення.

    Для кращого розуміння, будь ласка, погляньте на наступні кореляційні графіки:

    • Коефіцієнт 1 означає ідеальний позитивний зв'язок - зі збільшенням однієї змінної пропорційно зростає й інша.
    • Коефіцієнт -1 означає ідеальний негативний зв'язок - зі збільшенням однієї змінної інша пропорційно зменшується.
    • Коефіцієнт 0 означає відсутність зв'язку між двома змінними - точки даних розкидані по всьому графіку.

    Кореляція Пірсона

    У статистиці вимірюють кілька типів кореляції залежно від типу даних, з якими ви працюєте. У цьому посібнику ми зосередимося на найпоширенішому з них.

    Кореляція Пірсона повне найменування - Товариство з обмеженою відповідальністю Моментна кореляція продукту Пірсона (PPMC), використовується для оцінки лінійний взаємозв'язок між даними, коли зміна однієї змінної пов'язана з пропорційною зміною іншої змінної. Простіше кажучи, кореляція Пірсона відповідає на питання: чи можна зобразити дані лінією?

    У статистиці це найпопулярніший тип кореляції, і якщо ви маєте справу з "коефіцієнтом кореляції" без додаткового уточнення, то, швидше за все, це Пірсон.

    Ось найбільш часто використовувана формула для знаходження коефіцієнта кореляції Пірсона, яку ще називають R Пірсона :

    Іноді можна зустріти дві інші формули для розрахунку вибірковий коефіцієнт кореляції (r) та коефіцієнт кореляції населення (ρ).

    Як зробити кореляцію Пірсона в Excel

    Розрахунок коефіцієнта кореляції Пірсона вручну передбачає досить багато математичних обчислень. На щастя, Microsoft Excel зробив це дуже простим. Залежно від набору даних і вашої мети, ви можете використовувати одну з наведених нижче методик:

    • Знайти коефіцієнт кореляції Пірсона за допомогою функції CORREL.
    • Скласти кореляційну матрицю, виконавши Аналіз даних.
    • Знайдіть коефіцієнти множинної кореляції за формулою.
    • Побудуйте кореляційний графік, щоб отримати візуальне представлення взаємозв'язку даних.

    Як розрахувати коефіцієнт кореляції в Excel

    Щоб обчислити коефіцієнт кореляції вручну, вам доведеться використовувати цю довгу формулу. Щоб знайти коефіцієнт кореляції в Excel, скористайтеся функцією КОРРЕЛ або ПИРСОН і отримаєте результат за частки секунди.

    Функція КОРРЕЛ Excel

    Функція КОРРЕЛ повертає коефіцієнт кореляції Пірсона для двох наборів значень. Її синтаксис дуже простий і зрозумілий:

    КОРЕЛЯЦІЯ(масив1, масив2)

    Де:

    • Array1 перший діапазон значень.
    • Array2 другий діапазон значень.

    Обидва масиви повинні мати однакову довжину.

    Припустимо, що ми маємо набір незалежних змінних ( x ) у B2:B13 та залежних змінних (y) у C2:C13, формула коефіцієнта кореляції виглядає наступним чином:

    =CORREL(B2:B13, C2:C13)

    А можна було б поміняти місцями діапазони і отримати той самий результат:

    =CORREL(C2:C13, B2:B13)

    Так чи інакше, формула показує сильну негативну кореляцію (близько -0,97) між середньомісячною температурою та кількістю проданих обігрівачів:

    3 речі, які варто знати про функцію КОРРЕЛ в Excel

    Щоб успішно розрахувати коефіцієнт кореляції в Excel, будь ласка, пам'ятайте про ці 3 прості факти:

    • Якщо одна або декілька комірок масиву містять текст, логічні значення або пропуски, то такі комірки ігноруються, обчислюються комірки з нульовими значеннями.
    • Якщо надані масиви мають різну довжину, повертається помилка #N/A.
    • Якщо один з масивів порожній або середньоквадратичне відхилення їх значень дорівнює нулю, виникає помилка #DIV/0!

    Функція Excel PEARSON

    Функція ПИРСОН в Excel робить те ж саме - обчислює моментний коефіцієнт кореляції Пірсона.

    PEARSON(array1, array2)

    Де:

    • Array1 діапазон незалежних значень.
    • Array2 діапазон залежних значень.

    Оскільки ПІРСОН і КОРРЕЛ обчислюють коефіцієнт лінійної кореляції Пірсона, їхні результати повинні збігатися, і вони, як правило, збігаються в останніх версіях Excel 2007 - Excel 2019.

    Однак в Excel 2003 і більш ранніх версіях функція ПІРСОН може відображати деякі помилки округлення. Тому в більш старих версіях рекомендується використовувати функцію КОРРЕЛ замість ПІРСОН.

    На нашому вибірковому наборі даних обидві функції показують однакові результати:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Як зробити кореляційну матрицю в Excel з аналізом даних

    Коли потрібно перевірити взаємозв'язки між більш ніж двома змінними, має сенс побудувати кореляційну матрицю, яку іноді називають коефіцієнт множинної кореляції .

    На сьогоднішній день, на жаль, це не так. кореляційна матриця це таблиця, яка показує коефіцієнти кореляції між змінними на перетині відповідних рядків і стовпців.

    Кореляційна матриця в Excel побудована за допомогою Кореляція інструмент від Analysis ToolPak Надбудова доступна у всіх версіях Excel від 2003 до 2019 року, але за замовчуванням не активована. Якщо ви ще не активували її, будь ласка, зробіть це зараз, виконавши кроки, описані в розділі "Як активувати Data Analysis ToolPak в Excel".

    Завдяки інструментам аналізу даних, доданим до стрічки Excel, ви готові до проведення кореляційного аналізу:

    1. У правому верхньому куті Дані вкладка> Аналіз у групі, натисніть на кнопку Аналіз даних кнопку.
    2. В рамках проекту Аналіз даних виберіть у діалоговому вікні Кореляція і натисніть OK.
    3. В рамках проекту Кореляція налаштуйте параметри таким чином:
      • Натисніть на кнопку Діапазон введення і виберіть діапазон з вихідними даними, включаючи заголовки стовпців (B1:D13 у нашому випадку).
      • В рамках проекту Згруповано за Переконайтеся, що в розділі Колонки встановлений перемикач (враховуючи, що вихідні дані згруповані у стовпчики).
      • Виберіть пункт Етикетки в першому ряду прапорець, якщо вибраний діапазон містить заголовки стовпців.
      • Виберіть потрібний варіант виводу. Щоб матриця була на одному аркуші, виберіть Вихідний діапазон і вказати посилання на крайню ліву комірку, в яку повинна бути виведена матриця (в даному прикладі - A15).

    Після цього натисніть кнопку ГАРАЗД. кнопку:

    Ваша матриця коефіцієнтів кореляції готова і повинна виглядати приблизно так, як показано в наступному розділі.

    Інтерпретація результатів кореляційного аналізу

    У вашій кореляційній матриці Excel ви можете знайти коефіцієнти на перетині рядків і стовпців. Якщо координати стовпця і рядка збігаються, виводиться значення 1.

    У наведеному вище прикладі нас цікавить кореляція між залежною змінною (кількість проданих обігрівачів) та двома незалежними змінними (середньомісячна температура та витрати на рекламу). Отже, ми дивимося лише на числа на перетині цих рядків та стовпчиків, які виділені на скріншоті нижче:

    Від'ємний коефіцієнт -0,97 (округлений до 2 знаків після коми) показує сильну зворотну кореляцію між місячною температурою та продажами обігрівачів - чим вища температура, тим менше обігрівачів продається.

    Позитивний коефіцієнт 0,97 (з округленням до 2 знаків після коми) свідчить про сильний прямий зв'язок між рекламним бюджетом і продажами - чим більше грошей витрачається на рекламу, тим вищі продажі.

    Як зробити множинний кореляційний аналіз в Excel за допомогою формул

    Побудувати кореляційну таблицю за допомогою інструменту "Аналіз даних" дуже просто. Однак ця матриця є статичною, тобто вам потрібно буде проводити кореляційний аналіз заново щоразу, коли змінюються вихідні дані.

    Хороша новина полягає в тому, що ви можете легко побудувати подібну кореляційну таблицю самостійно, і ця матриця буде оновлюватися автоматично при кожній зміні вихідних значень.

    Для цього використовуйте цю загальну формулу:

    CORREL(OFFSET( перший_діапазон_змінних , 0, ROWS($1:1)-1), OFFSET( перший_діапазон_змінних , 0, COLUMNS($A:A)-1))

    Щоб формула працювала, необхідно зафіксувати перший діапазон змінних за допомогою абсолютних посилань на комірки.

    У нашому випадку перший діапазон змінних - $B$2:$B$13 (зверніть увагу на знак $, який фіксує посилання), і наша формула кореляції набуває такого вигляду:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    Отримавши формулу, побудуємо кореляційну матрицю:

    1. У першому рядку та першому стовпчику матриці введіть мітки змінних у тому ж порядку, в якому вони з'являються у вихідній таблиці (див. скріншот нижче).
    2. Введіть наведену вище формулу в крайню ліву комірку (у нашому випадку B16).
    3. Перетягніть формулу вниз і вправо, щоб скопіювати її в потрібну кількість рядків і стовпців (у нашому прикладі - 3 рядки і 3 стовпці).

    В результаті ми отримали наступну матрицю з коефіцієнтами множинної кореляції. Зверніть увагу, що коефіцієнти, які повертає наша формула, повністю збігаються з коефіцієнтами, які видає Excel у попередньому прикладі (релевантні виділені кольором):

    Як працює ця формула

    Як ви вже знаєте, функція КОРРЕЛ Excel повертає коефіцієнт кореляції для двох наборів змінних, які ви вказуєте. Основна складність полягає в тому, щоб поставити відповідні діапазони у відповідні комірки матриці. Для цього ви вводите у формулу тільки перший діапазон змінних і за допомогою наступних функцій вносите необхідні корективи:

    • OFFSET - повертає діапазон, який являє собою задану кількість рядків і стовпців із вказаного діапазону.
    • ROWS і COLUMNS - повертають кількість рядків і стовпців у діапазоні відповідно. У нашій кореляційній формулі обидва використовуються з однією метою - отримати кількість стовпців для зміщення від початкового діапазону. А досягається це за рахунок розумного використання абсолютних і відносних посилань.

    Щоб краще зрозуміти логіку, давайте подивимося, як за формулою розраховуються коефіцієнти, виділені на скріншоті вище.

    Спочатку розглянемо формулу у B18, яка знаходить зв'язок між місячною температурою (B2:B13) та проданими опалювальними приладами (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    У першій функції OFFSET ROWS($1:1) перетворилася на ROWS($1:3), оскільки друга координата є відносною, тому змінюється залежно від відносного положення рядка, куди копіюється формула (на 2 рядки вниз). Таким чином, ROWS() повертає 3, від якого віднімаємо 1, і отримуємо діапазон, який знаходиться на 2 стовпчики правіше вихідного діапазону, тобто $D$2:$D$13 (продажі обігрівачів).

    Другий OFFSET не змінює заданий діапазон $B$2:$B$13 (температура), оскільки COLUMNS($A:A)-1 повертає нуль.

    В результаті наша довга формула перетворюється в просту КОРРЕЛ($D$2:$D$13, $B$2:$B$13) і повертає саме той коефіцієнт, який ми хочемо.

    Аналогічно працює формула в С18, яка розраховує коефіцієнт кореляції для витрат на рекламу (С2:С13) та продажів (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Перша функція OFFSET абсолютно така ж, як описана вище, повертає діапазон $D$2:$D$13 (продажі обігрівачів).

    У другому OFFSET COLUMNS($A:A)-1 змінюється на COLUMNS($A:B)-1, оскільки ми скопіювали формулу 1 стовпчик праворуч. Отже, OFFSET отримує діапазон, який знаходиться на 1 стовпчик праворуч від вихідного діапазону, тобто $C$2:$C$13 (вартість реклами).

    Як побудувати кореляційний графік в Excel

    При виконанні кореляції в Excel найкращий спосіб отримати візуальне уявлення про взаємозв'язки між вашими даними - це намалювати діаграма розсіювання з лінія тренду Ось як:

    1. Виділіть два стовпчики з числовими даними, включаючи заголовки стовпчиків. Порядок розташування стовпчиків є важливим: у стовпчиках з числовими даними незалежний повинна бути в лівому стовпчику, оскільки цей стовпчик буде побудований на осі х; змінна залежний змінна повинна знаходитись у правому стовпчику, оскільки вона буде відкладатися на осі y.
    2. Про це йдеться на Вставка у вкладці Чати у групі, натисніть на кнопку Розкид Це призведе до негайної вставки діаграми розсіювання XY на робочому аркуші.
    3. Клацніть правою кнопкою миші по будь-якій точці даних на діаграмі і виберіть Додати Trendline... з контекстного меню.

    З детальною покроковою інструкцією можна ознайомитися за посиланням:

    • Як побудувати діаграму розсіювання в Excel
    • Як додати лінію тренду на діаграму Excel

    Для нашого набору даних графіки кореляції виглядають так, як показано на малюнку нижче. Крім того, ми відобразили значення R-квадрат, яке також називають коефіцієнтом кореляції Коефіцієнт детермінації Це значення показує, наскільки добре лінія тренду відповідає даним - чим ближче R2 до 1, тим краще відповідність.

    За значенням R2, що відображається на діаграмі розсіювання, ви можете легко розрахувати коефіцієнт кореляції:

    1. Для більшої точності, змусьте Excel показувати більше цифр у значенні R-квадрата, ніж за замовчуванням.
    2. Клацніть по значенню R2 на графіку, виділіть його мишкою і натисніть Ctrl + C, щоб скопіювати.
    3. Отримайте квадратний корінь з R2 або за допомогою функції SQRT, або шляхом піднесення скопійованого значення R2 до степеня 0,5.

    Наприклад, значення R2 на другому графіку становить 0,9174339392. Таким чином, можна знайти коефіцієнт кореляції для Реклама і Продані обігрівачі з однією з цих формул:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Як можна переконатися, розраховані таким чином коефіцієнти повністю відповідають коефіцієнтам кореляції, знайденим у попередніх прикладах, крім знака :

    Потенційні проблеми з кореляцією в Excel

    На сьогоднішній день, на жаль, це не так. Моментна кореляція продукту Пірсона лише виявляє лінійний Це означає, що ваші змінні можуть бути сильно пов'язані між собою іншим, криволінійним способом, і при цьому мати коефіцієнт кореляції, що дорівнює або близький до нуля.

    Кореляція Пірсона не здатна розрізнити залежний і незалежний Наприклад, при використанні функції КОРРЕЛ для пошуку зв'язку між середньомісячною температурою та кількістю проданих обігрівачів ми отримали коефіцієнт -0,97, що свідчить про високу негативну кореляцію. Однак можна було б поміняти місцями змінні і отримати той самий результат. Так, хтось може зробити висновок, що збільшення продажів обігрівачів призводить до падіння температури, що, очевидно, не відповідає дійсності.Тому, проводячи кореляційний аналіз в Excel, будьте уважні до даних, які ви надаєте.

    Крім того, кореляція Пірсона дуже чутлива до викиди Якщо у вас є одна або декілька точок даних, які сильно відрізняються від решти даних, ви можете отримати викривлену картину взаємозв'язку між змінними. У цьому випадку доцільно використовувати рангову кореляцію Спірмена.

    Ось як зробити кореляцію в Excel. Щоб детальніше ознайомитися з прикладами, розглянутими в цьому уроці, ви можете завантажити наш зразок робочого зошита нижче. Дякую за прочитання і сподіваюся побачити вас на нашому блозі наступного тижня!

    Практичний посібник

    Розрахувати кореляцію в Excel (файл .xlsx)

    Майкл Браун — відданий ентузіаст технологій із пристрастю до спрощення складних процесів за допомогою програмних засобів. Маючи понад десятирічний досвід роботи в технологічній індустрії, він відточив свої навички роботи з Microsoft Excel і Outlook, а також із Google Таблицями та Документами. Блог Майкла присвячений тому, щоб поділитися своїми знаннями та досвідом з іншими, надаючи прості поради та навчальні посібники для підвищення продуктивності та ефективності. Незалежно від того, чи є ви досвідченим професіоналом чи початківцем, блог Майкла пропонує цінну інформацію та практичні поради щодо отримання максимальної користі від цих основних програмних інструментів.