Змест
Падручнік тлумачыць асновы карэляцыі ў Excel, паказвае, як разлічыць каэфіцыент карэляцыі, пабудаваць карэляцыйную матрыцу і інтэрпрэтаваць вынікі.
Адзін з самых простых статыстычных вылічэнняў, які можна зрабіць у Excel, - гэта карэляцыя. Хоць гэта і проста, але вельмі карысна для разумення адносін паміж дзвюма ці больш зменнымі. Microsoft Excel забяспечвае ўсе неабходныя інструменты для правядзення карэляцыйнага аналізу, вам проста трэба ведаць, як імі карыстацца.
Карэляцыя ў Excel - асновы
Карэляцыя - гэта мера, якая апісвае сілу і кірунак сувязі паміж дзвюма зменнымі. Ён звычайна выкарыстоўваецца ў статыстыцы, эканоміцы і сацыяльных навуках для бюджэтаў, бізнес-планаў і таму падобнага.
Метад, які выкарыстоўваецца для вывучэння таго, наколькі цесна звязаны зменныя, называецца карэляцыйным аналізам .
Вось некалькі прыкладаў моцнай карэляцыі:
- Колькасць з'едзеных калорый і ваша вага (станоўчая карэляцыя)
- Тэмпература на вуліцы і вашы рахункі за ацяпленне ( адмоўная карэляцыя)
А вось прыклады даных, якія маюць слабую карэляцыю або не маюць ніякай карэляцыі:
- Імя вашага ката і яго любімая ежа
- Колер твае вочы і твой рост
Важнае разуменне карэляцыі заключаецца ў тым, што яна паказвае толькі тое, наколькі цесна звязаныя дзве зменныя. Карэляцыя, аднак, не мае на ўвазез вызначанага дыяпазону.
Каб лепш зразумець логіку, давайце паглядзім, як формула разлічвае каэфіцыенты, вылучаныя на скрыншоце вышэй.
Спачатку давайце вывучыце формулу ў B18, якая знаходзіць карэляцыю паміж месячнай тэмпературай (B2:B13) і прададзенымі абагравальнікамі (D2:D13):
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
У першай функцыі OFFSET, ROWS($1: 1) пераўтвораны ў ROWS($1:3), таму што другая каардыната адносная, таму яна змяняецца ў залежнасці ад адноснага становішча радка, у які капіюецца формула (на 2 радкі ўніз). Такім чынам, ROWS() вяртае 3, з якога мы адымаем 1 і атрымліваем дыяпазон, які знаходзіцца ў 2 слупках справа ад зыходнага дыяпазону, г.зн. $D$2:$D$13 (продаж абагравальнікаў).
другі OFFSET не змяняе ўказаны дыяпазон $B$2:$B$13 (тэмпература), таму што COLUMNS($A:A)-1 вяртае нуль.
У выніку наша доўгая формула ператвараецца ў простую CORREL( $D$2:$D$13, $B$2:$B$13) і вяртае менавіта той каэфіцыент, які нам патрэбны.
Формула ў C18, якая разлічвае каэфіцыент карэляцыі для кошту рэкламы (C2:C13) і продажаў ( D2:D13) працуе падобным чынам:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:3)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:B)-1))
Першая функцыя OFFSET:абсалютна тое самае, што апісана вышэй, вяртаючы дыяпазон $D$2:$D$13 (продаж абагравальнікаў).
У другім OFFSET, COLUMNS($A:A)-1 змяняецца на COLUMNS($A: B)-1, таму што мы скапіявалі слупок формулы 1 справа. Такім чынам, OFFSET атрымлівае дыяпазон, які знаходзіцца на 1 слупок справа ад зыходнага дыяпазону, г.зн. $C$2:$C$13 (кошт рэкламы).
Як пабудаваць карэляцыйны графік у Excel
Калі вы выконваеце карэляцыю ў Excel, лепшы спосаб атрымаць візуальнае прадстаўленне адносін паміж вашымі дадзенымі - намаляваць дыяграму рассеяння з лініяй трэнду . Вось як:
- Выберыце два слупкі з лікавымі дадзенымі, уключаючы загалоўкі слупкоў. Парадак слупкоў важны: зменная незалежная павінна знаходзіцца ў левым слупку, бо гэты слупок павінен быць адкладзены на восі х; залежная зменная павінна знаходзіцца ў правым слупку, бо яна будзе адкладзена па восі y.
- На ўкладцы Урэзка ў Чаты групы, пстрыкніце значок точкавай дыяграмы . Гэта неадкладна ўставіць кропкавую дыяграму XY у ваш аркуш.
- Пстрыкніце правай кнопкай мышы любую кропку даных на дыяграме і абярыце Дадаць лінію трэнду… з кантэкстнага меню.
Падрабязныя пакрокавыя інструкцыі глядзіце:
- Як стварыць дыяграму рассейвання ў Excel
- Як дадаць лінію трэнду ў дыяграму Excel
Для нашага ўзору даных графікі карэляцыі выглядаюць так, як паказана на малюнку ніжэй.Акрамя таго, мы паказалі значэнне R-квадрат, якое таксама называюць Каэфіцыентам дэтэрмінацыі . Гэта значэнне паказвае, наколькі добра лінія трэнду адпавядае даным - чым бліжэй R2 да 1, тым лепш супадзенне.
Па значэнні R2, якое адлюстроўваецца на вашай дыяграме рассейвання, вы можаце лёгка вылічыць каэфіцыент карэляцыі:
- Для большай дакладнасці прымусіце Excel паказваць больш лічбаў у значэнні R-квадрат, чым па змаўчанні.
- Пстрыкніце значэнне R2 на дыяграме, вылучыце яго з дапамогай мышы і націсніце Ctrl + C, каб скапіяваць яго.
- Атрымайце квадратны корань з R2 альбо з дапамогай функцыі SQRT, альбо шляхам узвядзення скапіраванага значэння R2 да ступені 0,5.
Напрыклад, Значэнне R2 на другім графіку роўна 0,9174339392. Такім чынам, вы можаце знайсці каэфіцыент карэляцыі для Рэкламы і Прададзеных абагравальнікаў з дапамогай адной з наступных формул:
=SQRT(0.9174339392)
=0.9174339392^0.5
Як вы можаце пераканацца, разлічаныя такім чынам каэфіцыенты цалкам адпавядаюць каэфіцыентам карэляцыі, знойдзеным у папярэдніх прыкладах, за выключэннем знака :
Патэнцыйныя праблемы з карэляцыяй у Excel
Карэляцыя моманту твора Пірсана выяўляе толькі лінейную залежнасць паміж дзвюма зменнымі. Гэта азначае, што вашы зменныя могуць быць моцна звязаны іншым, крывалінейным спосабам, і пры гэтым мець каэфіцыент карэляцыі роўны або блізкі да нуля.
Карэляцыя Пірсана не можаадрозніваюць залежныя і незалежныя зменныя. Напрыклад, пры выкарыстанні функцыі CORREL для пошуку сувязі паміж сярэднямесячнай тэмпературай і колькасцю прададзеных абагравальнікаў мы атрымалі каэфіцыент -0,97, што паказвае на высокую адмоўную карэляцыю. Тым не менш, вы можаце пераключацца паміж зменнымі і атрымаць той жа вынік. Такім чынам, хтосьці можа зрабіць выснову, што павелічэнне продажаў абагравальнікаў прыводзіць да паніжэння тэмпературы, што, відавочна, не мае сэнсу. Такім чынам, выконваючы карэляцыйны аналіз у Excel, памятайце пра дадзеныя, якія вы падаеце.
Акрамя таго, карэляцыя Пірсана вельмі адчувальная да выкідаў . Калі ў вас ёсць адна або некалькі кропак даных, якія моцна адрозніваюцца ад астатніх даных, вы можаце атрымаць скажоную карціну ўзаемасувязі паміж зменнымі. У гэтым выпадку было б разумней выкарыстоўваць карэляцыю рангаў Спірмена.
Вось як зрабіць карэляцыю ў Excel. Каб больш падрабязна разгледзець прыклады, якія абмяркоўваюцца ў гэтым уроку, вы можаце загрузіць наш узор працоўнага сшытка ніжэй. Я дзякую вам за чытанне і спадзяюся ўбачыць вас у нашым блогу на наступным тыдні!
Практычны сшытак
Вылічыць карэляцыю ў Excel (файл .xlsx)
прычынная сувязь. Той факт, што змены ў адной зменнай звязаны са зменамі ў другой зменнай, не азначае, што адна зменная насамрэч выклікае змяненне другой.Калі вы хочаце даведацца аб прычыннасці і рабіць прагнозы, зрабіце крок наперад і выканайце лінейны рэгрэсійны аналіз.
Каэфіцыент карэляцыі ў Excel - інтэрпрэтацыя карэляцыі
Лікавая мера ступені сувязі паміж дзвюма бесперапыннымі зменнымі называецца каэфіцыентам карэляцыі ( r).
Значэнне каэфіцыента заўсёды паміж -1 і 1 і вымярае сілу і кірунак лінейнай залежнасці паміж зменнымі.
Сіла
Чым больш чым абсалютнае значэнне каэфіцыента, тым мацнейшае ўзаемасувязь:
- Крайнія значэнні -1 і 1 паказваюць ідэальную лінейную залежнасць, калі ўсе кропкі даных ляжаць на лініі. На практыцы ідэальная карэляцыя, станоўчая ці адмоўная, назіраецца рэдка.
- Каэфіцыент 0 паказвае на адсутнасць лінейнай залежнасці паміж зменнымі. Гэта тое, што вы, хутчэй за ўсё, атрымаеце з двума наборамі выпадковых лікаў.
- Значэнні ад 0 да +1/-1 прадстаўляюць шкалу слабых, умераных і моцных адносін. Калі r набліжаецца да -1 або 1, трываласць сувязі ўзрастае.
Напрамак
Знак каэфіцыента (плюс або мінус) паказвае кірунак стўзаемасувязь.
- Станоўчыя каэфіцыенты ўяўляюць прамую карэляцыю і ствараюць нахіл уверх на графіку - калі адна зменная павялічваецца, павялічваецца і другая, і наадварот.
- Адмоўныя каэфіцыенты ўяўляюць адваротную карэляцыю і ствараюць сыходны нахіл на графіку - калі адна зменная павялічваецца, іншая мае тэндэнцыю да памяншэння.
Для лепшага разумення, калі ласка, паглядзіце на наступныя графікі карэляцыі:
- Каэфіцыент 1 азначае ідэальную станоўчую залежнасць - калі адна зменная павялічваецца, другая павялічваецца прапарцыйна.
- Каэфіцыент -1 азначае ідэальную адмоўную залежнасць - калі адна зменная павялічваецца, другая памяншаецца прапарцыйна.
- Каэфіцыент 0 азначае адсутнасць сувязі паміж дзвюма зменнымі - кропкі даных раскіданыя па ўсім графіцы.
Карэляцыя Пірсана
У статыстыцы яны вымяраюць некалькі тыпаў карэляцыі ў залежнасці ад тыпу даных, з якімі вы працуеце. У гэтым уроку мы спынімся на самым распаўсюджаным з іх.
Карэляцыя Пірсана , поўная назва Карэляцыя моманту прадукту Пірсана (PPMC), выкарыстоўваецца для ацэньваць лінейныя адносіны паміж дадзенымі, калі змяненне адной зменнай звязана з прапарцыянальным змяненнем другой зменнай. Кажучы простымі словамі, карэляцыя Пірсана адказвае на пытанне: ці могуць дадзеныя быць прадстаўлены на aрадок?
У статыстыцы гэта самы папулярны тып карэляцыі, і калі вы маеце справу з "каэфіцыентам карэляцыі" без дадатковых удакладненняў, хутчэй за ўсё гэта будзе тып карэляцыі Пірсана.
Вось найбольш часта выкарыстоўваная формула для вылічэння каэфіцыента карэляцыі Пірсана, таксама званая R Пірсана :
Часам вы можаце сустрэць дзве іншыя формулы для разліку выбаркавага каэфіцыента карэляцыі (r) і каэфіцыент карэляцыі Пірсана (ρ).
Як зрабіць карэляцыю Пірсана ў Excel
Разлік каэфіцыента карэляцыі Пірсана ўручную патрабуе даволі шмат матэматычных вылічэнняў . На шчасце, Microsoft Excel зрабіў усё вельмі простым. У залежнасці ад вашага набору даных і вашай мэты вы можаце выкарыстоўваць адзін з наступных метадаў:
- Знайдзіце каэфіцыент карэляцыі Пірсана з дапамогай функцыі CORREL.
- Складзіце карэляцыйную матрыцу з дапамогай выкананне аналізу даных.
- Знайдзіце некалькі каэфіцыентаў карэляцыі з дапамогай формулы.
- Пабудуйце карэляцыйны графік, каб атрымаць візуальнае адлюстраванне ўзаемасувязі даных.
Як разлічыць каэфіцыент карэляцыі ў Excel
Каб вылічыць каэфіцыент карэляцыі ўручную, вам трэба будзе выкарыстоўваць гэтую доўгую формулу. Каб знайсці каэфіцыент карэляцыі ў Excel, выкарыстоўвайце функцыю CORREL або PEARSON і атрымаеце вынік за долю секунды.
Функцыя Excel CORREL
Функцыя CORREL вяртаеКаэфіцыент карэляцыі Пірсана для двух набораў значэнняў. Яго сінтаксіс вельмі просты і зразумелы:
CORREL(масіў1, масіў2)Дзе:
- Масіў1 - першы дыяпазон значэнняў.
- Масіў2 - гэта другі дыяпазон значэнняў.
Два масівы павінны мець аднолькавую даўжыню.
Дапусцім, што ў нас ёсць набор незалежных зменных ( x ) у B2:B13 і залежных зменных (y) у C2:C13, наша формула каэфіцыента карэляцыі выглядае наступным чынам:
=CORREL(B2:B13, C2:C13)
Або мы маглі б памяняць месцамі дыяпазоны і па-ранейшаму атрымаць той жа вынік:
=CORREL(C2:C13, B2:B13)
У любым выпадку, формула паказвае моцную адмоўную карэляцыю (каля -0,97) паміж сярэднямесячнай тэмпературай і колькасцю прададзеных абагравальнікаў:
3 рэчы, якія вы павінны ведаць пра функцыю CORREL у Excel
Каб паспяхова разлічыць каэфіцыент карэляцыі ў Excel, майце на ўвазе гэтыя 3 простыя факты:
- Калі адна або некалькі ячэек у масіве ёсць тэкст, лагічныя значэнні або прабелы, такія вочкі ігнаруюцца; разлічваюцца ячэйкі з нулявымі значэннямі.
- Калі прадстаўленыя масівы маюць розную даўжыню, вяртаецца памылка #N/A.
- Калі любы з масіваў пусты або калі стандартнае адхіленне іх значэнні роўныя нулю, #DIV/0! адбываецца памылка.
Функцыя PEARSON у Excel
Функцыя PEARSON у Excel робіць тое ж самае - разлічвае каэфіцыент карэляцыі прадукту моманту Пірсана.
PEARSON(масіў1,масіў2)Дзе:
- Масіў1 - дыяпазон незалежных значэнняў.
- Масіў2 - дыяпазон залежных значэнняў.
Паколькі PEARSON і CORREL вылічваюць лінейны каэфіцыент карэляцыі Пірсана, іх вынікі павінны супадаць, і яны звычайна супадаюць у апошніх версіях Excel 2007 - Excel 2019.
У Excel 2003 і больш раннія версіі, аднак, функцыя PEARSON можа адлюстроўваць некаторыя памылкі акруглення. Такім чынам, у старых версіях рэкамендуецца выкарыстоўваць CORREL, а не PEARSON.
На нашым узоры даных абедзве функцыі дэманструюць аднолькавыя вынікі:
=CORREL(B2:B13, C2:C13)
=PEARSON(B2:B13, C2:C13)
Як стварыць карэляцыйную матрыцу ў Excel з дапамогай аналізу даных
Калі вам трэба праверыць ўзаемасувязі паміж больш чым дзвюма зменнымі, мае сэнс пабудаваць карэляцыйную матрыцу, якую часам называюць каэфіцыент множнай карэляцыі .
Матрыца карэляцыі - гэта табліца, якая паказвае каэфіцыенты карэляцыі паміж зменнымі на перасячэнні адпаведных радкоў і слупкоў.
Карэляцыйная матрыца ў Excel будуецца з дапамогай інструмента Correlation з надбудовы Analysis ToolPak . Гэтая надбудова даступная ва ўсіх версіях Excel 2003 па Excel 2019, але не ўключана па змаўчанні. Калі вы яшчэ не актывавалі яго, зрабіце гэта зараз, выканаўшы дзеянні, апісаныя ў раздзеле "Як уключыць Data Analysis ToolPak у Excel".
З дапамогайінструменты аналізу даных, дададзеныя на вашу стужку Excel, вы гатовыя запусціць карэляцыйны аналіз:
- У правым верхнім куце ўкладкі Даныя > Аналіз групы, націсніце кнопку Аналіз даных .
- У дыялогавым акне Аналіз дадзеных абярыце Карэляцыя і націсніце OK.
- У полі Карэляцыя наладзьце параметры такім чынам:
- Пстрыкніце ў полі Дыяпазон уводу і выберыце дыяпазон з дапамогай вашы зыходныя даныя, уключаючы загалоўкі слупкоў (у нашым выпадку B1:D13).
- У раздзеле Згрупаваныя па пераканайцеся, што выбрана поле Слупкі (улічваючы што вашыя зыходныя даныя згрупаваны ў слупкі).
- Усталюйце сцяжок Пазнакі ў першым радку , калі абраны дыяпазон утрымлівае загалоўкі слупкоў.
- Выберыце патрэбны варыянт вываду. Каб мець матрыцу на адным аркушы, выберыце Дыяпазон вываду і ўкажыце спасылку на самую левую ячэйку, у якую павінна быць выведзена матрыца (у гэтым прыкладзе A15).
Пасля завяршэння націсніце кнопку ОК :
Ваша матрыца каэфіцыентаў карэляцыі гатовая і павінна выглядаць прыкладна так, як паказана ў наступным раздзеле.
Інтэрпрэтацыя вынікаў карэляцыйнага аналізу
У карэляцыйнай матрыцы Excel вы можаце знайсці каэфіцыенты на скрыжаванні радкоў і слупкоў. Калі каардынаты слупка і радка аднолькавыя, выводзіцца значэнне 1.
У вышэйзгаданымнапрыклад, нам цікава даведацца пра карэляцыю паміж залежнай зменнай (колькасцю прададзеных абагравальнікаў) і дзвюма незалежнымі зменнымі (сярэднямесячная тэмпература і выдаткі на рэкламу). Такім чынам, мы разглядаем толькі лічбы на скрыжаванні гэтых радкоў і слупкоў, якія вылучаны на скрыншоце ніжэй:
Адмоўны каэфіцыент -0,97 (акруглены да 2 знакаў пасля коскі) паказвае моцную адваротную карэляцыю паміж штомесячная тэмпература і продаж абагравальнікаў - па меры павышэння тэмпературы прадаецца менш абагравальнікаў.
Станоўчы каэфіцыент 0,97 (з акругленнем да 2 знакаў пасля коскі) паказвае на моцную прамую сувязь паміж рэкламным бюджэтам і продажамі - чым больш грошы, якія вы выдаткуеце на рэкламу, тым вышэй продажы.
Як зрабіць множны карэляцыйны аналіз у Excel з дапамогай формул
Стварыць карэляцыйную табліцу з дапамогай інструмента аналізу даных лёгка. Аднак гэтая матрыца статычная, што азначае, што вам трэба будзе запускаць карэляцыйны аналіз нанова кожны раз, калі зыходныя даныя змяняюцца.
Добрая навіна заключаецца ў тым, што вы можаце лёгка стварыць падобную карэляцыйную табліцу самастойна, і гэтая матрыца будзе абнаўляцца аўтаматычна з кожным змяненнем зыходных значэнняў.
Каб зрабіць гэта, выкарыстоўвайце наступную агульную формулу:
CORREL(OFFSET( first_variable_range , 0, ROWS($1:1)-1) , ЗРУШЭННЕ( дыяпазон_першай_зменнай , 0, Слупкі($A:A)-1))Важная заўвага! Каб формула працавала, вы павінны заблакіравацьпершы дыяпазон зменных з выкарыстаннем абсалютных спасылак на ячэйкі.
У нашым выпадку першы дыяпазон зменных $B$2:$B$13 (звярніце ўвагу на знак $, які фіксуе спасылку), і наша формула карэляцыі прымае гэта shape:
=CORREL(OFFSET($B$2:$B$13, 0, ROWS($1:1)-1), OFFSET($B$2:$B$13, 0, COLUMNS($A:A)-1))
З гатовай формулай, давайце пабудуем карэляцыйную матрыцу:
- У першым радку і першым слупку матрыцы ўвядзіце зменныя' меткі ў тым жа парадку, у якім яны з'яўляюцца ў вашай зыходнай табліцы (калі ласка, глядзіце скрыншот ніжэй).
- Увядзіце прыведзеную вышэй формулу ў самую левую ячэйку (у нашым выпадку B16).
- Перацягніце формулу уніз і направа, каб скапіяваць яго ў столькі радкоў і слупкоў, колькі неабходна (3 радкі і 3 слупкі ў нашым прыкладзе).
У выніку мы атрымалі наступную матрыцу з множнай карэляцыяй каэфіцыенты. Калі ласка, звярніце ўвагу, што каэфіцыенты, якія вяртае наша формула, сапраўды такія ж, як і ў Excel у папярэднім прыкладзе (адпаведныя выдзелены):
Як працуе гэтая формула
Як вы ўжо ведаеце, функцыя Excel CORREL вяртае каэфіцыент карэляцыі для двух набораў зменных, якія вы ўказваеце. Галоўная задача - паставіць адпаведныя дыяпазоны ў адпаведныя вочка матрыцы. Для гэтага вы ўводзіце ў формулу толькі першы дыяпазон зменнай і выкарыстоўваеце наступныя функцыі, каб унесці неабходныя карэктывы:
- ЗРУШЭННЕ - вяртае дыяпазон, які ўяўляе сабой зададзеную колькасць радкоў і слупкоў.