Карэляцыя ў Excel: каэфіцыент, матрыца і графік

  • Падзяліцца Гэтым
Michael Brown

Падручнік тлумачыць асновы карэляцыі ў Excel, паказвае, як разлічыць каэфіцыент карэляцыі, пабудаваць карэляцыйную матрыцу і інтэрпрэтаваць вынікі.

Адзін з самых простых статыстычных вылічэнняў, які можна зрабіць у Excel, - гэта карэляцыя. Хоць гэта і проста, але вельмі карысна для разумення адносін паміж дзвюма ці больш зменнымі. Microsoft Excel забяспечвае ўсе неабходныя інструменты для правядзення карэляцыйнага аналізу, вам проста трэба ведаць, як імі карыстацца.

    Карэляцыя ў Excel - асновы

    Карэляцыя - гэта мера, якая апісвае сілу і кірунак сувязі паміж дзвюма зменнымі. Ён звычайна выкарыстоўваецца ў статыстыцы, эканоміцы і сацыяльных навуках для бюджэтаў, бізнес-планаў і таму падобнага.

    Метад, які выкарыстоўваецца для вывучэння таго, наколькі цесна звязаны зменныя, называецца карэляцыйным аналізам .

    Вось некалькі прыкладаў моцнай карэляцыі:

    • Колькасць з'едзеных калорый і ваша вага (станоўчая карэляцыя)
    • Тэмпература на вуліцы і вашы рахункі за ацяпленне ( адмоўная карэляцыя)

    А вось прыклады даных, якія маюць слабую карэляцыю або не маюць ніякай карэляцыі:

    • Імя вашага ката і яго любімая ежа
    • Колер твае вочы і твой рост

    Важнае разуменне карэляцыі заключаецца ў тым, што яна паказвае толькі тое, наколькі цесна звязаныя дзве зменныя. Карэляцыя, аднак, не мае на ўвазез вызначанага дыяпазону.

  • ROWS і COLUMNS - вяртаюць колькасць радкоў і слупкоў у дыяпазоне адпаведна. У нашай формуле карэляцыі абодва выкарыстоўваюцца з адной мэтай - атрымаць колькасць слупкоў для зрушэння ад пачатковага дыяпазону. І гэта дасягаецца шляхам разумнага выкарыстання абсалютных і адносных спасылак.
  • Каб лепш зразумець логіку, давайце паглядзім, як формула разлічвае каэфіцыенты, вылучаныя на скрыншоце вышэй.

    Спачатку давайце вывучыце формулу ў B18, якая знаходзіць карэляцыю паміж месячнай тэмпературай (B2:B13) і прададзенымі абагравальнікамі (D2:D13):

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    У першай функцыі OFFSET, ROWS($1: 1) пераўтвораны ў ROWS($1:3), таму што другая каардыната адносная, таму яна змяняецца ў залежнасці ад адноснага становішча радка, у які капіюецца формула (на 2 радкі ўніз). Такім чынам, ROWS() вяртае 3, з якога мы адымаем 1 і атрымліваем дыяпазон, які знаходзіцца ў 2 слупках справа ад зыходнага дыяпазону, г.зн. $D$2:$D$13 (продаж абагравальнікаў).

    другі OFFSET не змяняе ўказаны дыяпазон $B$2:$B$13 (тэмпература), таму што COLUMNS($A:A)-1 вяртае нуль.

    У выніку наша доўгая формула ператвараецца ў простую CORREL( $D$2:$D$13, $B$2:$B$13) і вяртае менавіта той каэфіцыент, які нам патрэбны.

    Формула ў C18, якая разлічвае каэфіцыент карэляцыі для кошту рэкламы (C2:C13) і продажаў ( D2:D13) працуе падобным чынам:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))

    Першая функцыя OFFSET:абсалютна тое самае, што апісана вышэй, вяртаючы дыяпазон $D$2:$D$13 (продаж абагравальнікаў).

    У другім OFFSET, COLUMNS($A:A)-1 змяняецца на COLUMNS($A: B)-1, таму што мы скапіявалі слупок формулы 1 справа. Такім чынам, OFFSET атрымлівае дыяпазон, які знаходзіцца на 1 слупок справа ад зыходнага дыяпазону, г.зн. $C$2:$C$13 (кошт рэкламы).

    Як пабудаваць карэляцыйны графік у Excel

    Калі вы выконваеце карэляцыю ў Excel, лепшы спосаб атрымаць візуальнае прадстаўленне адносін паміж вашымі дадзенымі - намаляваць дыяграму рассеяння з лініяй трэнду . Вось як:

    1. Выберыце два слупкі з лікавымі дадзенымі, уключаючы загалоўкі слупкоў. Парадак слупкоў важны: зменная незалежная павінна знаходзіцца ў левым слупку, бо гэты слупок павінен быць адкладзены на восі х; залежная зменная павінна знаходзіцца ў правым слупку, бо яна будзе адкладзена па восі y.
    2. На ўкладцы Урэзка ў Чаты групы, пстрыкніце значок точкавай дыяграмы . Гэта неадкладна ўставіць кропкавую дыяграму XY у ваш аркуш.
    3. Пстрыкніце правай кнопкай мышы любую кропку даных на дыяграме і абярыце Дадаць лінію трэнду… з кантэкстнага меню.

    Падрабязныя пакрокавыя інструкцыі глядзіце:

    • Як стварыць дыяграму рассейвання ў Excel
    • Як дадаць лінію трэнду ў дыяграму Excel

    Для нашага ўзору даных графікі карэляцыі выглядаюць так, як паказана на малюнку ніжэй.Акрамя таго, мы паказалі значэнне R-квадрат, якое таксама называюць Каэфіцыентам дэтэрмінацыі . Гэта значэнне паказвае, наколькі добра лінія трэнду адпавядае даным - чым бліжэй R2 да 1, тым лепш супадзенне.

    Па значэнні R2, якое адлюстроўваецца на вашай дыяграме рассейвання, вы можаце лёгка вылічыць каэфіцыент карэляцыі:

    1. Для большай дакладнасці прымусіце Excel паказваць больш лічбаў у значэнні R-квадрат, чым па змаўчанні.
    2. Пстрыкніце значэнне R2 на дыяграме, вылучыце яго з дапамогай мышы і націсніце Ctrl + C, каб скапіяваць яго.
    3. Атрымайце квадратны корань з R2 альбо з дапамогай функцыі SQRT, альбо шляхам узвядзення скапіраванага значэння R2 да ступені 0,5.

    Напрыклад, Значэнне R2 на другім графіку роўна 0,9174339392. Такім чынам, вы можаце знайсці каэфіцыент карэляцыі для Рэкламы і Прададзеных абагравальнікаў з дапамогай адной з наступных формул:

    =SQRT(0.9174339392)

    =0.9174339392^0.5

    Як вы можаце пераканацца, разлічаныя такім чынам каэфіцыенты цалкам адпавядаюць каэфіцыентам карэляцыі, знойдзеным у папярэдніх прыкладах, за выключэннем знака :

    Патэнцыйныя праблемы з карэляцыяй у Excel

    Карэляцыя моманту твора Пірсана выяўляе толькі лінейную залежнасць паміж дзвюма зменнымі. Гэта азначае, што вашы зменныя могуць быць моцна звязаны іншым, крывалінейным спосабам, і пры гэтым мець каэфіцыент карэляцыі роўны або блізкі да нуля.

    Карэляцыя Пірсана не можаадрозніваюць залежныя і незалежныя зменныя. Напрыклад, пры выкарыстанні функцыі CORREL для пошуку сувязі паміж сярэднямесячнай тэмпературай і колькасцю прададзеных абагравальнікаў мы атрымалі каэфіцыент -0,97, што паказвае на высокую адмоўную карэляцыю. Тым не менш, вы можаце пераключацца паміж зменнымі і атрымаць той жа вынік. Такім чынам, хтосьці можа зрабіць выснову, што павелічэнне продажаў абагравальнікаў прыводзіць да паніжэння тэмпературы, што, відавочна, не мае сэнсу. Такім чынам, выконваючы карэляцыйны аналіз у Excel, памятайце пра дадзеныя, якія вы падаеце.

    Акрамя таго, карэляцыя Пірсана вельмі адчувальная да выкідаў . Калі ў вас ёсць адна або некалькі кропак даных, якія моцна адрозніваюцца ад астатніх даных, вы можаце атрымаць скажоную карціну ўзаемасувязі паміж зменнымі. У гэтым выпадку было б разумней выкарыстоўваць карэляцыю рангаў Спірмена.

    Вось як зрабіць карэляцыю ў Excel. Каб больш падрабязна разгледзець прыклады, якія абмяркоўваюцца ў гэтым уроку, вы можаце загрузіць наш узор працоўнага сшытка ніжэй. Я дзякую вам за чытанне і спадзяюся ўбачыць вас у нашым блогу на наступным тыдні!

    Практычны сшытак

    Вылічыць карэляцыю ў Excel (файл .xlsx)

    прычынная сувязь. Той факт, што змены ў адной зменнай звязаны са зменамі ў другой зменнай, не азначае, што адна зменная насамрэч выклікае змяненне другой.

    Калі вы хочаце даведацца аб прычыннасці і рабіць прагнозы, зрабіце крок наперад і выканайце лінейны рэгрэсійны аналіз.

    Каэфіцыент карэляцыі ў Excel - інтэрпрэтацыя карэляцыі

    Лікавая мера ступені сувязі паміж дзвюма бесперапыннымі зменнымі называецца каэфіцыентам карэляцыі ( r).

    Значэнне каэфіцыента заўсёды паміж -1 і 1 і вымярае сілу і кірунак лінейнай залежнасці паміж зменнымі.

    Сіла

    Чым больш чым абсалютнае значэнне каэфіцыента, тым мацнейшае ўзаемасувязь:

    • Крайнія значэнні -1 і 1 паказваюць ідэальную лінейную залежнасць, калі ўсе кропкі даных ляжаць на лініі. На практыцы ідэальная карэляцыя, станоўчая ці адмоўная, назіраецца рэдка.
    • Каэфіцыент 0 паказвае на адсутнасць лінейнай залежнасці паміж зменнымі. Гэта тое, што вы, хутчэй за ўсё, атрымаеце з двума наборамі выпадковых лікаў.
    • Значэнні ад 0 да +1/-1 прадстаўляюць шкалу слабых, умераных і моцных адносін. Калі r набліжаецца да -1 або 1, трываласць сувязі ўзрастае.

    Напрамак

    Знак каэфіцыента (плюс або мінус) паказвае кірунак стўзаемасувязь.

    • Станоўчыя каэфіцыенты ўяўляюць прамую карэляцыю і ствараюць нахіл уверх на графіку - калі адна зменная павялічваецца, павялічваецца і другая, і наадварот.
    • Адмоўныя каэфіцыенты ўяўляюць адваротную карэляцыю і ствараюць сыходны нахіл на графіку - калі адна зменная павялічваецца, іншая мае тэндэнцыю да памяншэння.

    Для лепшага разумення, калі ласка, паглядзіце на наступныя графікі карэляцыі:

    • Каэфіцыент 1 азначае ідэальную станоўчую залежнасць - калі адна зменная павялічваецца, другая павялічваецца прапарцыйна.
    • Каэфіцыент -1 азначае ідэальную адмоўную залежнасць - калі адна зменная павялічваецца, другая памяншаецца прапарцыйна.
    • Каэфіцыент 0 азначае адсутнасць сувязі паміж дзвюма зменнымі - кропкі даных раскіданыя па ўсім графіцы.

    Карэляцыя Пірсана

    У статыстыцы яны вымяраюць некалькі тыпаў карэляцыі ў залежнасці ад тыпу даных, з якімі вы працуеце. У гэтым уроку мы спынімся на самым распаўсюджаным з іх.

    Карэляцыя Пірсана , поўная назва Карэляцыя моманту прадукту Пірсана (PPMC), выкарыстоўваецца для ацэньваць лінейныя адносіны паміж дадзенымі, калі змяненне адной зменнай звязана з прапарцыянальным змяненнем другой зменнай. Кажучы простымі словамі, карэляцыя Пірсана адказвае на пытанне: ці могуць дадзеныя быць прадстаўлены на aрадок?

    У статыстыцы гэта самы папулярны тып карэляцыі, і калі вы маеце справу з "каэфіцыентам карэляцыі" без дадатковых удакладненняў, хутчэй за ўсё гэта будзе тып карэляцыі Пірсана.

    Вось найбольш часта выкарыстоўваная формула для вылічэння каэфіцыента карэляцыі Пірсана, таксама званая R Пірсана :

    Часам вы можаце сустрэць дзве іншыя формулы для разліку выбаркавага каэфіцыента карэляцыі (r) і каэфіцыент карэляцыі Пірсана (ρ).

    Як зрабіць карэляцыю Пірсана ў Excel

    Разлік каэфіцыента карэляцыі Пірсана ўручную патрабуе даволі шмат матэматычных вылічэнняў . На шчасце, Microsoft Excel зрабіў усё вельмі простым. У залежнасці ад вашага набору даных і вашай мэты вы можаце выкарыстоўваць адзін з наступных метадаў:

    • Знайдзіце каэфіцыент карэляцыі Пірсана з дапамогай функцыі CORREL.
    • Складзіце карэляцыйную матрыцу з дапамогай выкананне аналізу даных.
    • Знайдзіце некалькі каэфіцыентаў карэляцыі з дапамогай формулы.
    • Пабудуйце карэляцыйны графік, каб атрымаць візуальнае адлюстраванне ўзаемасувязі даных.

    Як разлічыць каэфіцыент карэляцыі ў Excel

    Каб вылічыць каэфіцыент карэляцыі ўручную, вам трэба будзе выкарыстоўваць гэтую доўгую формулу. Каб знайсці каэфіцыент карэляцыі ў Excel, выкарыстоўвайце функцыю CORREL або PEARSON і атрымаеце вынік за долю секунды.

    Функцыя Excel CORREL

    Функцыя CORREL вяртаеКаэфіцыент карэляцыі Пірсана для двух набораў значэнняў. Яго сінтаксіс вельмі просты і зразумелы:

    CORREL(масіў1, масіў2)

    Дзе:

    • Масіў1 - першы дыяпазон значэнняў.
    • Масіў2 - гэта другі дыяпазон значэнняў.

    Два масівы павінны мець аднолькавую даўжыню.

    Дапусцім, што ў нас ёсць набор незалежных зменных ( x ) у B2:B13 і залежных зменных (y) у C2:C13, наша формула каэфіцыента карэляцыі выглядае наступным чынам:

    =CORREL(B2:B13, C2:C13)

    Або мы маглі б памяняць месцамі дыяпазоны і па-ранейшаму атрымаць той жа вынік:

    =CORREL(C2:C13, B2:B13)

    У любым выпадку, формула паказвае моцную адмоўную карэляцыю (каля -0,97) паміж сярэднямесячнай тэмпературай і колькасцю прададзеных абагравальнікаў:

    3 рэчы, якія вы павінны ведаць пра функцыю CORREL у Excel

    Каб паспяхова разлічыць каэфіцыент карэляцыі ў Excel, майце на ўвазе гэтыя 3 простыя факты:

    • Калі адна або некалькі ячэек у масіве ёсць тэкст, лагічныя значэнні або прабелы, такія вочкі ігнаруюцца; разлічваюцца ячэйкі з нулявымі значэннямі.
    • Калі прадстаўленыя масівы маюць розную даўжыню, вяртаецца памылка #N/A.
    • Калі любы з масіваў пусты або калі стандартнае адхіленне іх значэнні роўныя нулю, #DIV/0! адбываецца памылка.

    Функцыя PEARSON у Excel

    Функцыя PEARSON у Excel робіць тое ж самае - разлічвае каэфіцыент карэляцыі прадукту моманту Пірсана.

    PEARSON(масіў1,масіў2)

    Дзе:

    • Масіў1 - дыяпазон незалежных значэнняў.
    • Масіў2 - дыяпазон залежных значэнняў.

    Паколькі PEARSON і CORREL вылічваюць лінейны каэфіцыент карэляцыі Пірсана, іх вынікі павінны супадаць, і яны звычайна супадаюць у апошніх версіях Excel 2007 - Excel 2019.

    У Excel 2003 і больш раннія версіі, аднак, функцыя PEARSON можа адлюстроўваць некаторыя памылкі акруглення. Такім чынам, у старых версіях рэкамендуецца выкарыстоўваць CORREL, а не PEARSON.

    На нашым узоры даных абедзве функцыі дэманструюць аднолькавыя вынікі:

    =CORREL(B2:B13, C2:C13)

    =PEARSON(B2:B13, C2:C13)

    Як стварыць карэляцыйную матрыцу ў Excel з дапамогай аналізу даных

    Калі вам трэба праверыць ўзаемасувязі паміж больш чым дзвюма зменнымі, мае сэнс пабудаваць карэляцыйную матрыцу, якую часам называюць каэфіцыент множнай карэляцыі .

    Матрыца карэляцыі - гэта табліца, якая паказвае каэфіцыенты карэляцыі паміж зменнымі на перасячэнні адпаведных радкоў і слупкоў.

    Карэляцыйная матрыца ў Excel будуецца з дапамогай інструмента Correlation з надбудовы Analysis ToolPak . Гэтая надбудова даступная ва ўсіх версіях Excel 2003 па Excel 2019, але не ўключана па змаўчанні. Калі вы яшчэ не актывавалі яго, зрабіце гэта зараз, выканаўшы дзеянні, апісаныя ў раздзеле "Як уключыць Data Analysis ToolPak у Excel".

    З дапамогайінструменты аналізу даных, дададзеныя на вашу стужку Excel, вы гатовыя запусціць карэляцыйны аналіз:

    1. У правым верхнім куце ўкладкі Даныя > Аналіз групы, націсніце кнопку Аналіз даных .
    2. У дыялогавым акне Аналіз дадзеных абярыце Карэляцыя і націсніце OK.
    3. У полі Карэляцыя наладзьце параметры такім чынам:
      • Пстрыкніце ў полі Дыяпазон уводу і выберыце дыяпазон з дапамогай вашы зыходныя даныя, уключаючы загалоўкі слупкоў (у нашым выпадку B1:D13).
      • У раздзеле Згрупаваныя па пераканайцеся, што выбрана поле Слупкі (улічваючы што вашыя зыходныя даныя згрупаваны ў слупкі).
      • Усталюйце сцяжок Пазнакі ў першым радку , калі абраны дыяпазон утрымлівае загалоўкі слупкоў.
      • Выберыце патрэбны варыянт вываду. Каб мець матрыцу на адным аркушы, выберыце Дыяпазон вываду і ўкажыце спасылку на самую левую ячэйку, у якую павінна быць выведзена матрыца (у гэтым прыкладзе A15).

    Пасля завяршэння націсніце кнопку ОК :

    Ваша матрыца каэфіцыентаў карэляцыі гатовая і павінна выглядаць прыкладна так, як паказана ў наступным раздзеле.

    Інтэрпрэтацыя вынікаў карэляцыйнага аналізу

    У карэляцыйнай матрыцы Excel вы можаце знайсці каэфіцыенты на скрыжаванні радкоў і слупкоў. Калі каардынаты слупка і радка аднолькавыя, выводзіцца значэнне 1.

    У вышэйзгаданымнапрыклад, нам цікава даведацца пра карэляцыю паміж залежнай зменнай (колькасцю прададзеных абагравальнікаў) і дзвюма незалежнымі зменнымі (сярэднямесячная тэмпература і выдаткі на рэкламу). Такім чынам, мы разглядаем толькі лічбы на скрыжаванні гэтых радкоў і слупкоў, якія вылучаны на скрыншоце ніжэй:

    Адмоўны каэфіцыент -0,97 (акруглены да 2 знакаў пасля коскі) паказвае моцную адваротную карэляцыю паміж штомесячная тэмпература і продаж абагравальнікаў - па меры павышэння тэмпературы прадаецца менш абагравальнікаў.

    Станоўчы каэфіцыент 0,97 (з акругленнем да 2 знакаў пасля коскі) паказвае на моцную прамую сувязь паміж рэкламным бюджэтам і продажамі - чым больш грошы, якія вы выдаткуеце на рэкламу, тым вышэй продажы.

    Як зрабіць множны карэляцыйны аналіз у Excel з дапамогай формул

    Стварыць карэляцыйную табліцу з дапамогай інструмента аналізу даных лёгка. Аднак гэтая матрыца статычная, што азначае, што вам трэба будзе запускаць карэляцыйны аналіз нанова кожны раз, калі зыходныя даныя змяняюцца.

    Добрая навіна заключаецца ў тым, што вы можаце лёгка стварыць падобную карэляцыйную табліцу самастойна, і гэтая матрыца будзе абнаўляцца аўтаматычна з кожным змяненнем зыходных значэнняў.

    Каб зрабіць гэта, выкарыстоўвайце наступную агульную формулу:

    CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , ЗРУШЭННЕ( дыяпазон_першай_зменнай , 0, Слупкі($A:A)-1))

    Важная заўвага! Каб формула працавала, вы павінны заблакіравацьпершы дыяпазон зменных з выкарыстаннем абсалютных спасылак на ячэйкі.

    У нашым выпадку першы дыяпазон зменных $B$2:$B$13 (звярніце ўвагу на знак $, які фіксуе спасылку), і наша формула карэляцыі прымае гэта shape:

    =CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))

    З гатовай формулай, давайце пабудуем карэляцыйную матрыцу:

    1. У першым радку і першым слупку матрыцы ўвядзіце зменныя' меткі ў тым жа парадку, у якім яны з'яўляюцца ў вашай зыходнай табліцы (калі ласка, глядзіце скрыншот ніжэй).
    2. Увядзіце прыведзеную вышэй формулу ў самую левую ячэйку (у нашым выпадку B16).
    3. Перацягніце формулу уніз і направа, каб скапіяваць яго ў столькі радкоў і слупкоў, колькі неабходна (3 радкі і 3 слупкі ў нашым прыкладзе).

    У выніку мы атрымалі наступную матрыцу з множнай карэляцыяй каэфіцыенты. Калі ласка, звярніце ўвагу, што каэфіцыенты, якія вяртае наша формула, сапраўды такія ж, як і ў Excel у папярэднім прыкладзе (адпаведныя выдзелены):

    Як працуе гэтая формула

    Як вы ўжо ведаеце, функцыя Excel CORREL вяртае каэфіцыент карэляцыі для двух набораў зменных, якія вы ўказваеце. Галоўная задача - паставіць адпаведныя дыяпазоны ў адпаведныя вочка матрыцы. Для гэтага вы ўводзіце ў формулу толькі першы дыяпазон зменнай і выкарыстоўваеце наступныя функцыі, каб унесці неабходныя карэктывы:

    • ЗРУШЭННЕ - вяртае дыяпазон, які ўяўляе сабой зададзеную колькасць радкоў і слупкоў.

    Майкл Браўн - адданы энтузіяст тэхналогій, які любіць спрашчэнне складаных працэсаў з дапамогай праграмных інструментаў. Маючы больш чым дзесяцігадовы досвед працы ў індустрыі тэхналогій, ён удасканальваў свае навыкі ў Microsoft Excel і Outlook, а таксама ў Google Sheets і Docs. Блог Майкла прысвечаны таму, каб падзяліцца сваімі ведамі і вопытам з іншымі, даючы простыя ў выкананні парады і падручнікі для павышэння прадукцыйнасці і эфектыўнасці. Незалежна ад таго, з'яўляецеся вы дасведчаным прафесіяналам або пачаткоўцам, блог Майкла прапануе каштоўную інфармацыю і практычныя парады, каб атрымаць максімальную аддачу ад гэтых неабходных праграмных інструментаў.