Корелация в Excel: коефициент, матрица и графика

  • Споделя Това
Michael Brown

В урока се обясняват основите на корелацията в Excel, показва се как да се изчисли коефициент на корелация, да се построи корелационна матрица и да се интерпретират резултатите.

Едно от най-простите статистически изчисления, които можете да направите в Excel, е корелацията. Макар и проста, тя е много полезна за разбиране на връзките между две или повече променливи. Microsoft Excel предоставя всички необходими инструменти за извършване на корелационен анализ, просто трябва да знаете как да ги използвате.

    Корелация в Excel - основи

    Корелация е мярка, която описва силата и посоката на връзката между две променливи. Тя се използва често в статистиката, икономиката и социалните науки за бюджети, бизнес планове и други подобни.

    Методът, използван за изследване на това колко тясно са свързани променливите, се нарича корелационен анализ .

    Ето няколко примера за силна корелация:

    • Броят на приеманите калории и теглото ви (положителна корелация)
    • Температурата навън и сметките ви за отопление (отрицателна корелация)

    А ето и примери за данни, които имат слаба или никаква корелация:

    • Името на котката ви и любимата ѝ храна
    • Цветът на очите ви и височината ви

    Същественото, което трябва да се разбере за корелацията, е, че тя показва само колко тясно свързани са две променливи. Корелацията обаче не означава причинно-следствена връзка. Фактът, че промените в една променлива са свързани с промени в друга променлива, не означава, че едната променлива действително предизвиква промяната на другата.

    Ако искате да научите причинно-следствената връзка и да правите прогнози, направете крачка напред и извършете линеен регресионен анализ.

    Коефициент на корелация в Excel - тълкуване на корелацията

    Числената мярка за степента на асоциация между две непрекъснати променливи се нарича коефициент на корелация (r).

    Стойността на коефициента е винаги между -1 и 1 и измерва както силата, така и посоката на линейната връзка между променливите.

    Сила

    Колкото по-голяма е абсолютната стойност на коефициента, толкова по-силна е връзката:

    • Крайните стойности -1 и 1 показват перфектна линейна връзка, когато всички точки от данните попадат на една линия. На практика рядко се наблюдава перфектна корелация, независимо дали е положителна или отрицателна.
    • Коефициент 0 означава, че няма линейна връзка между променливите. Това е вероятността да се получи при два набора от случайни числа.
    • Стойностите между 0 и +1/-1 представляват скала от слаби, умерени и силни връзки. r се доближава до -1 или 1, силата на връзката се увеличава.

    Посока

    Знакът на коефициента (плюс или минус) показва посоката на връзката.

    • Положителен Коефициентите представляват пряка корелация и водят до възходящ наклон на графиката - с увеличаването на едната променлива се увеличава и другата, и обратно.
    • Отрицателен Коефициентите представляват обратна корелация и водят до низходящ наклон на графиката - когато едната променлива се увеличава, другата има тенденция да намалява.

    За по-добро разбиране разгледайте следните графики на корелация:

    • Коефициент на 1 означава идеална положителна връзка - с увеличаването на едната променлива пропорционално се увеличава и другата.
    • Коефициент на -1 означава идеална отрицателна връзка - когато едната променлива се увеличава, другата намалява пропорционално.
    • Коефициент на 0 означава липса на връзка между две променливи - точките на данните са разпръснати по цялата графика.

    Корелация на Пирсън

    В статистиката се измерват няколко вида корелация в зависимост от вида на данните, с които работите. В този урок ще се спрем на най-често срещаната.

    Корелация на Пиърсън , пълното име е Корелация на продукта на Пиърсън (PPMC), се използва за оценка на Линейна Корелацията на Пиърсън отговаря на въпроса: Могат ли данните да бъдат представени на линия?

    В статистиката това е най-популярният тип корелация и ако имате работа с "коефициент на корелация" без допълнителни уточнения, най-вероятно става въпрос за Пирсън.

    Ето най-често използваната формула за намиране на коефициента на корелация на Пиърсън, наричан още R на Пирсън :

    Понякога може да срещнете две други формули за изчисляване на коефициент на корелация на извадката (r) и коефициент на корелация на населението (ρ).

    Как да направим корелация на Пиърсън в Excel

    Изчисляването на корелационния коефициент на Пиърсън на ръка е свързано с доста математика. За щастие, Microsoft Excel е направил нещата много лесни. В зависимост от набора ви от данни и целта ви, можете да използвате една от следните техники:

    • Намерете коефициента на корелация на Пиърсън с функцията CORREL.
    • Направете корелационна матрица, като извършите анализ на данните.
    • Намиране на коефициенти на множествена корелация с помощта на формула.
    • Начертайте корелационна графика, за да получите визуално представяне на връзката между данните.

    Как да изчислим коефициента на корелация в Excel

    За да изчислите коефициента на корелация на ръка, трябва да използвате тази дълга формула. За да намерите коефициента на корелация в Excel, използвайте функцията CORREL или PEARSON и ще получите резултата за част от секундата.

    Функция CORREL на Excel

    Функцията CORREL връща коефициента на корелация на Пиърсън за два набора от стойности. Синтаксисът ѝ е много лесен и ясен:

    CORREL(array1, array2)

    Къде:

    • Масив1 е първият диапазон от стойности.
    • Масив2 е вторият диапазон от стойности.

    Двата масива трябва да са с еднаква дължина.

    Ако приемем, че имаме набор от независими променливи ( x ) в B2:B13 и зависими променливи (y) в C2:C13, нашата формула за корелационен коефициент е следната:

    =CORREL(B2:B13, C2:C13)

    Или можем да разменим диапазоните и да получим същия резултат:

    =CORREL(C2:C13, B2:B13)

    Така или иначе, формулата показва силна отрицателна корелация (около -0,97) между средната месечна температура и броя на продадените отоплителни уреди:

    3 неща, които трябва да знаете за функцията CORREL в Excel

    За да изчислите успешно коефициента на корелация в Excel, моля, имайте предвид тези 3 прости факта:

    • Ако една или повече клетки в масив съдържат текст, логически стойности или празни полета, тези клетки се игнорират; клетките с нулеви стойности се изчисляват.
    • Ако предоставените масиви са с различна дължина, се връща грешка #N/A.
    • Ако някой от масивите е празен или ако стандартното отклонение на стойностите им е равно на нула, се появява грешка #DIV/0!

    Функция PEARSON на Excel

    Функцията PEARSON в Excel прави същото нещо - изчислява коефициента на корелация Pearson Product Moment Correlation.

    PEARSON(array1, array2)

    Къде:

    • Масив1 е диапазон от независими стойности.
    • Масив2 е диапазон от зависими стойности.

    Тъй като PEARSON и CORREL изчисляват линейния коефициент на корелация на Пиърсън, резултатите им трябва да съвпадат и обикновено съвпадат в последните версии на Excel 2007 до Excel 2019.

    В Excel 2003 и по-ранни версии обаче функцията PEARSON може да показва някои грешки при закръгляване. Затова в по-старите версии се препоръчва да се използва CORREL вместо PEARSON.

    При нашия набор от примерни данни и двете функции показват едни и същи резултати:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Как да създадем корелационна матрица в Excel с Анализ на данни

    Когато е необходимо да се проверят взаимовръзките между повече от две променливи, има смисъл да се състави корелационна матрица, която понякога се нарича коефициент на множествена корелация .

    Сайтът корелационна матрица е таблица, която показва коефициентите на корелация между променливите в пресечната точка на съответните редове и колони.

    Корелационната матрица в Excel се създава с помощта на Корелация инструмент от Пакет инструменти за анализ Тази добавка е налична във всички версии на Excel 2003 до Excel 2019, но не е активирана по подразбиране. Ако все още не сте я активирали, моля, направете това сега, като следвате стъпките, описани в Как да активирате Data Analysis ToolPak в Excel.

    С инструментите за анализ на данни, добавени в лентата на Excel, сте готови да извършвате корелационен анализ:

    1. В горния десен ъгъл на Данни tab> Анализ щракнете върху групата Анализ на данните бутон.
    2. В Анализ на данните диалогов прозорец, изберете Корелация и щракнете върху OK.
    3. В Корелация конфигурирайте параметрите по този начин:
      • Кликнете върху Диапазон на въвеждане и изберете диапазона с изходните данни, включително заглавията на колоните (в нашия случай B1:D13).
      • В Групирани по секцията, уверете се, че Колони е избрано радиоклетката (при положение че изходните данни са групирани в колони).
      • Изберете Етикети в първия ред ако избраният диапазон съдържа заглавия на колони.
      • Изберете желаната опция за извеждане. За да бъде матрицата в същия лист, изберете Изходен обхват и посочете препратката към най-лявата клетка, в която трябва да се изведе матрицата (A15 в този пример).

    Когато приключите, щракнете върху ОК бутон:

    Вашата матрица на корелационните коефициенти е готова и трябва да изглежда по начина, показан в следващия раздел.

    Интерпретиране на резултатите от корелационния анализ

    В корелационната матрица на Excel можете да намерите коефициентите в пресечната точка на редовете и колоните. Ако координатите на колоната и реда са еднакви, се извежда стойност 1.

    В горния пример се интересуваме от корелацията между зависимата променлива (брой продадени отоплителни уреди) и две независими променливи (средна месечна температура и разходи за реклама). Затова разглеждаме само числата в пресечната точка на тези редове и колони, които са подчертани на екранната снимка по-долу:

    Отрицателният коефициент от -0,97 (закръглен до втория знак след десетичната запетая) показва силна обратна зависимост между месечната температура и продажбите на отоплителни уреди - с повишаването на температурата се продават по-малко отоплителни уреди.

    Положителният коефициент от 0,97 (закръглен до втория знак след десетичната запетая) показва силна пряка връзка между бюджета за реклама и продажбите - колкото повече пари се харчат за реклама, толкова по-големи са продажбите.

    Как да направите множествен корелационен анализ в Excel с помощта на формули

    Създаването на таблицата за корелация с помощта на инструмента за анализ на данни е лесно. Тази матрица обаче е статична, което означава, че ще трябва да стартирате анализа на корелацията наново при всяка промяна на изходните данни.

    Добрата новина е, че лесно можете сами да създадете подобна таблица за корелация и тази матрица ще се актуализира автоматично при всяка промяна в изходните стойности.

    За да го направите, използвайте тази обща формула:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1), OFFSET( first_variable_range , 0, КОЛОНИ($A:A)-1))

    Важна забележка! За да работи формулата, трябва да заключите първия диапазон от променливи, като използвате абсолютни препратки към клетките.

    В нашия случай обхватът на първата променлива е $B$2:$B$13 (моля, обърнете внимание на знака $, който заключва препратката) и нашата формула за корелация има тази форма:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    След като формулата е готова, нека да съставим корелационна матрица:

    1. На първия ред и в първата колона на матрицата въведете етикетите на променливите в същия ред, в който те се появяват във вашата изходна таблица (моля, вижте екранната снимка по-долу).
    2. Въведете горната формула в най-лявата клетка (B16 в нашия случай).
    3. Плъзнете формулата надолу и надясно, за да я копирате в толкова редове и колони, колкото е необходимо (3 реда и 3 колони в нашия пример).

    В резултат на това получихме следната матрица с множество коефициенти на корелация. Обърнете внимание, че коефициентите, върнати от нашата формула, са абсолютно същите като тези, изведени от Excel в предишния пример (съответните са подчертани):

    Как работи тази формула

    Както вече знаете, функцията CORREL на Excel връща коефициента на корелация за два набора от променливи, които сте посочили. Основното предизвикателство е да предоставите подходящите диапазони в съответните клетки на матрицата. За тази цел въвеждате само първия диапазон на променливите във формулата и използвате следните функции, за да направите необходимите корекции:

    • OFFSET - връща диапазон, който е даден брой редове и колони от зададен диапазон.
    • ROWS и COLUMNS - връщат съответно броя на редовете и колоните в даден диапазон. В нашата формула за корелация и двете се използват с една цел - да се получи броят на колоните, които да се изместят от началния диапазон. Това се постига чрез умело използване на абсолютни и относителни препратки.

    За да разберем по-добре логиката, нека видим как формулата изчислява коефициентите, подчертани на снимката по-горе.

    Първо, нека да разгледаме формулата в B18, която намира връзка между месечната температура (B2:B13) и продадените отоплителни уреди (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    В първата функция OFFSET ROWS($1:1) се трансформира в ROWS($1:3), тъй като втората координата е относителна, така че се променя в зависимост от относителната позиция на реда, в който е копирана формулата (2 реда надолу). Така ROWS() връща 3, от което изваждаме 1 и получаваме диапазон, който е 2 колони вдясно от изходния диапазон, т.е. $D$2:$D$13 (продажби на нагреватели).

    Вторият OFFSET не променя зададения диапазон $B$2:$B$13 (температура), защото COLUMNS($A:A)-1 връща нула.

    В резултат на това нашата дълга формула се превръща в обикновена CORREL($D$2:$D$13, $B$2:$B$13) и връща точно желания коефициент.

    Формулата в C18, която изчислява коефициента на корелация за разходите за реклама (C2:C13) и продажбите (D2:D13), работи по подобен начин:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Първата функция OFFSET е абсолютно същата, както е описана по-горе, като връща диапазона $D$2:$D$13 (продажби на нагреватели).

    Във втория OFFSET COLUMNS($A:A)-1 се променя на COLUMNS($A:B)-1, тъй като сме копирали формулата с 1 колона надясно. Следователно OFFSET получава диапазон, който е с 1 колона надясно от изходния диапазон, т.е. $C$2:$C$13 (разходи за реклама).

    Как да изчертаете корелационна графика в Excel

    Когато извършвате корелация в Excel, най-добрият начин за визуално представяне на връзките между данните е да начертаете диаграма на разсейване с линия на тенденцията Ето как:

    1. Изберете две колони с цифрови данни, включително заглавията на колоните. Редът на колоните е важен: независим променливата трябва да бъде в лявата колона, тъй като тази колона ще бъде изобразена върху оста x; променливата зависим променливата трябва да бъде в дясната колона, тъй като тя ще бъде нанесена върху оста y.
    2. На Вмъкване на в раздела Чатове щракнете върху групата Разпръскване Това незабавно ще вмъкне XY диаграма на разсейване в работния ви лист.
    3. Щракнете с десния бутон на мишката върху всяка точка от диаграмата и изберете Добавяне на Trendline... от контекстното меню.

    За подробни инструкции стъпка по стъпка вижте:

    • Как да създадете диаграма на разсейване в Excel
    • Как да добавите линия на тенденцията към диаграма на Excel

    За нашия примерен набор от данни корелационните графики изглеждат така, както е показано на изображението по-долу. Освен това показахме стойността на R-квадрат, наричана още Коефициент на детерминация Тази стойност показва колко добре линията на тенденцията съответства на данните - колкото по-близо е R2 до 1, толкова по-добро е съответствието.

    От стойността R2, показана на диаграмата на разпръскване, можете лесно да изчислите коефициента на корелация:

    1. За по-голяма точност накарайте Excel да показва повече цифри в стойността на R-squared, отколкото по подразбиране.
    2. Щракнете върху стойността R2 на графиката, изберете я с мишката и натиснете Ctrl + C, за да я копирате.
    3. Получете квадратен корен от R2 чрез използване на функцията SQRT или чрез увеличаване на копираната стойност на R2 до степента на 0,5.

    Например стойността на R2 във втората графика е 0,9174339392. Така че можете да намерите коефициента на корелация за Реклама и Продадени нагреватели с една от тези формули:

    =SQRT(0,9174339392)

    =0.9174339392^0.5

    Както можете да се уверите, изчислените по този начин коефициенти напълно съответстват на корелационните коефициенти, установени в предишните примери, с изключение на знака :

    Потенциални проблеми с корелацията в Excel

    Сайтът Корелация на продукта на Пиърсън разкрива само Линейна Това означава, че променливите ви могат да бъдат силно свързани по друг, криволинеен начин, и въпреки това коефициентът на корелация да е равен или близък до нула.

    Корелацията на Пирсън не е в състояние да разграничи зависим и независим Например, когато използвахме функцията CORREL, за да намерим връзката между средната месечна температура и броя на продадените отоплителни уреди, получихме коефициент от -0,97, което показва висока отрицателна корелация. Въпреки това, можете да размените променливите и да получите същия резултат. Така че, някой може да заключи, че по-високите продажби на отоплителни уреди водят до понижаване на температурата, което очевидно неЕто защо, когато извършвате корелационен анализ в Excel, трябва да сте наясно с данните, които предоставяте.

    Освен това корелацията на Пирсън е много чувствителна към отклонения Ако имате една или повече точки с данни, които се различават значително от останалите данни, може да получите изкривена картина на връзката между променливите. В този случай би било разумно да използвате ранговата корелация на Спирман вместо нея.

    Това е начинът за извършване на корелация в Excel. За да разгледате по-отблизо примерите, разгледани в това ръководство, можете да изтеглите нашата примерна работна книга по-долу. Благодаря ви за прочита и се надявам да се видим в нашия блог следващата седмица!

    Практическа работна тетрадка

    Изчисляване на корелацията в Excel (.xlsx файл)

    Майкъл Браун е отдаден технологичен ентусиаст със страст към опростяване на сложни процеси с помощта на софтуерни инструменти. С повече от десетилетие опит в технологичната индустрия, той е усъвършенствал уменията си в Microsoft Excel и Outlook, както и в Google Sheets и Docs. Блогът на Майкъл е посветен на споделянето на неговите знания и опит с други, предоставяйки лесни за следване съвети и уроци за подобряване на продуктивността и ефективността. Независимо дали сте опитен професионалист или начинаещ, блогът на Michael предлага ценни прозрения и практически съвети за извличане на максимума от тези основни софтуерни инструменти.