Лінейны рэгрэсійны аналіз у Excel

  • Падзяліцца Гэтым
Michael Brown

Падручнік тлумачыць асновы рэгрэсійнага аналізу і паказвае некалькі розных спосабаў выканання лінейнай рэгрэсіі ў Excel.

Уявіце сабе: вам прадастаўляецца мноства розных даных і просяць прадказаць лічбы продажаў вашай кампаніі ў наступным годзе. Вы выявілі дзясяткі, магчыма, нават сотні фактараў, якія могуць паўплываць на лічбы. Але як даведацца, якія з іх сапраўды важныя? Запусціце рэгрэсійны аналіз у Excel. Гэта дасць вам адказ на гэтае і многія іншыя пытанні: якія фактары важныя, а якія можна ігнараваць? Наколькі цесна гэтыя фактары звязаны адзін з адным? І наколькі вы можаце быць упэўнены ў прагнозах?

    Рэгрэсійны аналіз у Excel - асновы

    У статыстычным мадэляванні рэгрэсійны аналіз выкарыстоўваецца для ацаніце адносіны паміж дзвюма ці больш зменнымі:

    Залежная зменная (яна ж зменная крытэрый ) з'яўляецца асноўным фактарам, які вы спрабуеце зразумець і прадказаць.

    Незалежныя зменныя (яны ж тлумачальныя зменныя або прадказальнікі ) - гэта фактары, якія могуць уплываць на залежную зменную.

    Рэгрэсійны аналіз дапамагае вам зразумець, як змяняецца залежная зменная, калі змяняецца адна з незалежных зменных, і дазваляе матэматычна вызначыць, якая з гэтых зменных сапраўды ўплывае.

    Тэхнічна мадэль рэгрэсійнага аналізу заснавана на суме

    На дадзены момант ваша дыяграма ўжо выглядае як прыстойны графік рэгрэсіі:

    Тым не менш, вы можаце зрабіць яшчэ некалькі паляпшэнняў:

    • Перацягніце ўраўненне, куды лічыце патрэбным.
    • Дадайце назвы восяў (кнопка Элементы дыяграмы > Назвы восяў ).
    • Калі ваш кропкі даных пачынаюцца ў сярэдзіне гарызантальнай і/або вертыкальнай восі, як у гэтым прыкладзе, вы можаце пазбавіцца ад празмернага прабелу. Наступная парада тлумачыць, як гэта зрабіць: маштабуйце восі дыяграмы, каб паменшыць прабелы.

      І вось як выглядае наш палепшаны графік рэгрэсіі:

      Важная заўвага! На графіцы рэгрэсіі незалежная зменная заўсёды павінна знаходзіцца на восі X, а залежная зменная - на восі Y. Калі ваш графік пабудаваны ў зваротным парадку, памяняйце месцамі слупкі ў працоўным аркушы, а затым намалюйце дыяграму нанова. Калі вам не дазволена змяняць парадак зыходных даных, вы можаце пераключыць восі X і Y непасрэдна ў дыяграме.

    Як зрабіць рэгрэсію ў Excel з дапамогай формул

    Microsoft Excel мае некалькі статыстычных функцый, якія могуць дапамагчы вам зрабіць аналіз лінейнай рэгрэсіі, такіх як LINEST, SLOPE, INTERCEPT і CORREL.

    Функцыя LINEST выкарыстоўвае метад найменшых квадратаў рэгрэсіі для разліку прамой радок, які лепш за ўсё тлумачыць сувязь паміж вашымі зменнымі і вяртае масіў, які апісвае гэты радок. Вы можаце знайсці падрабязнае тлумачэннесінтаксіс функцыі ў гэтым уроку. А пакуль давайце проста створым формулу для нашага ўзору набору даных:

    =LINEST(C2:C25, B2:B25)

    Паколькі функцыя ЛІНІЙ вяртае масіў значэнняў, вы павінны ўвесці яго як формулу масіва. Выберыце дзве суседнія ячэйкі ў адным радку, у нашым выпадку E2:F2, увядзіце формулу і націсніце Ctrl + Shift + Enter, каб завяршыць яе.

    Формула вяртае каэфіцыент b ( E1) і канстанта a (F1) для ўжо знаёмага ўраўнення лінейнай рэгрэсіі:

    y = bx + a

    Калі вы не выкарыстоўваеце формулы масіваў у сваіх лістах, вы можаце вылічыць a і b паасобку са звычайнымі формуламі:

    Атрымайце Y-перасячэнне (a):

    =INTERCEPT(C2:C25, B2:B25)

    Атрымайце нахіл (b):

    =SLOPE(C2:C25, B2:B25)

    Акрамя таго, вы можаце знайсці каэфіцыент карэляцыі ( Множны R у выніковых выніках рэгрэсійнага аналізу), які паказвае, як гэтыя дзве зменныя моцна звязаны адна з адной:

    =CORREL(B2:B25,C2:C25)

    На наступным здымку экрана паказаны ўсе гэтыя формулы рэгрэсіі Excel у дзеянні:

    Савет. Калі вы жадаеце атрымаць дадатковую статыстыку для рэгрэсійнага аналізу, выкарыстоўвайце функцыю LINEST з параметрам s tats , усталяваным у TRUE, як паказана ў гэтым прыкладзе.

    Вось як вы выконваеце лінейную рэгрэсію у Excel. Пры гэтым майце на ўвазе, што Microsoft Excel не з'яўляецца статыстычнай праграмай. Калі вам неабходна выканаць рэгрэсійны аналіз на прафесійным узроўні, вы можаце выкарыстоўваць мэтавы аналізпраграмнае забеспячэнне, такое як XLSTAT, RegressIt і г.д.

    Каб больш падрабязна азнаёміцца ​​з нашымі формуламі лінейнай рэгрэсіі і іншымі метадамі, якія абмяркоўваюцца ў гэтым падручніку, вы можаце загрузіць наш узор кнігі ніжэй. Дзякуй за чытанне!

    Практычны сшытак

    Рэгрэсійны аналіз у Excel - прыклады (.xlsx файл)

    squares, які з'яўляецца матэматычным спосабам знайсці дысперсію кропак дадзеных. Мэта мадэлі - атрымаць найменшую магчымую суму квадратаў і правесці лінію, якая найбольш блізкая да дадзеных.

    У статыстыцы адрозніваюць простую і множную лінейную рэгрэсію. Простая лінейная рэгрэсія мадэлюе сувязь паміж залежнай зменнай і адной незалежнай зменнай з дапамогай лінейнай функцыі. Калі вы выкарыстоўваеце дзве або больш тлумачальных зменных для прагназавання залежнай зменнай, вы маеце справу з множнай лінейнай рэгрэсіяй . Калі залежная зменная мадэлюецца як нелінейная функцыя, таму што адносіны даных не ідуць па прамой лініі, выкарыстоўвайце замест гэтага нелінейную рэгрэсію . У цэнтры ўвагі гэтага падручніка будзе простая лінейная рэгрэсія.

    У якасці прыкладу возьмем лічбы продажаў парасонаў за апошнія 24 месяцы і даведаемся сярэднямесячную колькасць ападкаў за той жа перыяд. Нанясіце гэтую інфармацыю на дыяграму, і лінія рэгрэсіі прадэманструе залежнасць паміж незалежнай зменнай (колькасць ападкаў) і залежнай зменнай (продаж парасонаў):

    Ураўненне лінейнай рэгрэсіі

    З матэматычнага пункту гледжання, лінейная рэгрэсія вызначаецца гэтым раўнаннем:

    y = bx + a + ε

    Дзе:

    • x - незалежная зменная.
    • y - гэта залежная зменная.
    • a гэта перасячэнне Y , якое з'яўляецца чаканым сярэднім значэннем y , калі ўсе зменныя x роўныя 0. На графіцы рэгрэсіі гэта кропка, дзе лінія перасякае вось Y.
    • b - гэта нахіл лініі рэгрэсіі, якая з'яўляецца хуткасцю змены для y пры змене x .
    • ε гэта выпадковая памылка член, які ўяўляе сабой розніцу паміж фактычным значэннем залежнай зменнай і яе прагназаваным значэннем.

    Ураўненне лінейнай рэгрэсіі заўсёды мае член памылкі, таму што ў рэальным жыцці прадказальнікі ніколі не бываюць ідэальна дакладнымі. Аднак некаторыя праграмы, у тым ліку Excel, выконваюць разлік тэрмінаў памылак за кадрам. Такім чынам, у Excel вы выконваеце лінейную рэгрэсію з выкарыстаннем метаду найменшых квадратаў і шукаеце каэфіцыенты a і b такія, што:

    y = bx + a

    Для нашага прыкладу ўраўненне лінейнай рэгрэсіі мае наступны выгляд:

    Umbrellas sold = b * rainfall + a

    Існуе некалькі розных спосабаў знайсці a і b . Тры асноўныя метады выканання лінейнага рэгрэсійнага аналізу ў Excel:

    • Інструмент рэгрэсіі, уключаны ў Analysis ToolPak
    • Тэдэральная дыяграма з лініяй трэнду
    • Формула лінейнай рэгрэсіі

    Ніжэй вы знойдзеце падрабязныя інструкцыі па выкарыстанні кожнага метаду.

    Як зрабіць лінейную рэгрэсію ў Excel з дапамогай Analysis ToolPak

    Гэты прыклад паказвае, як запусціць рэгрэсію ў Excel з дапамогай спецыяльнага інструмента, які ўваходзіць у надбудову Analysis ToolPak.

    Уключыць надбудову Analysis ToolPakin

    Analysis ToolPak даступны ва ўсіх версіях Excel 365 да 2003, але не ўключаны па змаўчанні. Такім чынам, вам трэба ўключыць яго ўручную. Вось як:

    1. У вашым Excel націсніце Файл > Параметры .
    2. У Параметры Excel у дыялогавым акне выберыце Надбудовы на левай бакавой панэлі, пераканайцеся, што выбрана Надбудовы Excel у полі Кіраванне , і націсніце Перайсці .
    3. У дыялогавым акне Надбудовы адзначце Пакет інструментаў аналізу і націсніце ОК :

    Гэта дадасць інструменты Аналіз даных на ўкладку Дадзеныя вашай стужкі Excel.

    Запусціце рэгрэсійны аналіз

    У У гэтым прыкладзе мы будзем рабіць простую лінейную рэгрэсію ў Excel. У нас ёсць спіс сярэднямесячнай колькасці ападкаў за апошнія 24 месяцы ў слупку B, які з'яўляецца нашай незалежнай зменнай (прадказальнікам), і колькасць прададзеных парасонаў у слупку C, які з'яўляецца залежнай зменнай. Вядома, ёсць шмат іншых фактараў, якія могуць паўплываць на продажы, але пакуль мы засяроджваемся толькі на гэтых дзвюх зменных:

    Калі ўключаны Analysis Toolpak, выканайце наступныя крокі, каб выканаць рэгрэсійны аналіз у Excel:

    1. На ўкладцы Даныя ў групе Аналіз націсніце кнопку Аналіз даных .
    2. Абярыце Рэгрэсія і націсніце ОК .
    3. У дыялогавым акне Рэгрэсія наладзьце наступныя параметры:
      • Абярыце УводДыяпазон Y , які з'яўляецца вашай залежнай зменнай . У нашым выпадку гэта парасонавыя продажы (C1:C25).
      • Абярыце Дыяпазон уводу X , г.зн. вашу незалежную зменную . У гэтым прыкладзе гэта сярэднямесячная колькасць ападкаў (B1:B25).

      Калі вы ствараеце мадэль множнай рэгрэсіі, выберыце два або больш суседніх слупкоў з рознымі незалежнымі зменнымі.

      • Адзначце поле Меткі , калі ўверсе вашых дыяпазонаў X і Y ёсць загалоўкі.
      • Выберыце пажаданы варыянт вываду, новы аркуш у нашым case.
      • Дадаткова ўсталюйце сцяжок Residuals , каб атрымаць розніцу паміж прадказанымі і фактычнымі значэннямі.
    4. Націсніце ОК і паглядзіце на вывад рэгрэсійнага аналізу, створаны Excel.

    Інтэрпрэтаваць выснову рэгрэсійнага аналізу

    Як вы толькі што бачылі, запусціць рэгрэсію ў Excel лёгка, таму што ўсе вылічэнні выконваюцца аўтаматычна. Інтэрпрэтацыя вынікаў крыху больш складаная, таму што вам трэба ведаць, што стаіць за кожнай лічбай. Ніжэй вы знойдзеце разбіўку на 4 асноўныя часткі вынікаў рэгрэсійнага аналізу.

    Высновы рэгрэсійнага аналізу: зводны вынік

    Гэта частка паказвае, наколькі добра разлічанае ўраўненне лінейнай рэгрэсіі адпавядае вашым зыходным дадзеным.

    Вось што азначае кожная інфармацыя:

    Некалькі R . Гэта каэфіцыент карэляцыі , які вымярае сілулінейная залежнасць паміж дзвюма зменнымі. Каэфіцыент карэляцыі можа быць любым значэннем ад -1 да 1, і яго абсалютнае значэнне паказвае сілу ўзаемасувязі. Чым большае абсалютнае значэнне, тым мацнейшая сувязь:

    • 1 азначае моцную станоўчую сувязь
    • -1 азначае моцную адмоўную сувязь
    • 0 азначае адсутнасць сувязі на усе

    R Square . Гэта каэфіцыент дэтэрмінацыі , які выкарыстоўваецца ў якасці паказчыка адпаведнасці. Ён паказвае, колькі кропак трапляе на лінію рэгрэсіі. Значэнне R2 вылічваецца з агульнай сумы квадратаў, дакладней, гэта сума квадратаў адхіленняў зыходных даных ад сярэдняга.

    У нашым прыкладзе R2 складае 0,91 (акруглена да 2 лічбаў) , што казачна добра. Гэта азначае, што 91% нашых значэнняў адпавядаюць мадэлі рэгрэсійнага аналізу. Іншымі словамі, 91% залежных зменных (значэнні y) тлумачацца незалежнымі зменнымі (значэнні х). Як правіла, R Squared 95% або больш лічыцца добрым падыходам.

    Скарэктаваны R Squared . Гэта R-квадрат з папраўкай на колькасць незалежнай зменнай у мадэлі. Вы захочаце выкарыстоўваць гэтае значэнне замест R квадрата для множнага рэгрэсійнага аналізу.

    Стандартная памылка . Гэта яшчэ адна мера адпаведнасці, якая паказвае дакладнасць вашага рэгрэсійнага аналізу - чым менш лік, тым больш упэўнены вы ўваша ўраўненне рэгрэсіі. У той час як R2 уяўляе сабой працэнт дысперсіі залежных зменных, які тлумачыцца мадэллю, стандартная хібнасць з'яўляецца абсалютнай мерай, якая паказвае сярэднюю адлегласць, на якой кропкі даных знаходзяцца ад лініі рэгрэсіі.

    Назіранні . Гэта проста колькасць назіранняў у вашай мадэлі.

    Вывад рэгрэсійнага аналізу: ANOVA

    Другая частка вынікаў - гэта дысперсійны аналіз (ANOVA):

    У асноўным, ён разбівае суму квадратаў на асобныя кампаненты, якія даюць інфармацыю аб узроўнях зменлівасці ў вашай рэгрэсійнай мадэлі:

    • df гэта колькасць ступеняў свабоды, звязаных з крыніцамі дысперсіі.
    • SS — сума квадратаў. Чым меншы Residual SS у параўнанні з Total SS, тым лепш ваша мадэль адпавядае дадзеным.
    • MS - гэта сярэднеквадратычнае значэнне.
    • F гэта F-статыстыка, або F-тэст для нулявой гіпотэзы. Ён выкарыстоўваецца для праверкі агульнай значнасці мадэлі.
    • Значнасць F з'яўляецца P-значэннем F.

    Частка ANOVA рэдка выкарыстоўваецца для просты лінейны рэгрэсійны аналіз у Excel, але вы абавязкова павінны ўважліва паглядзець на апошні кампанент. Значэнне Значнасць F дае ўяўленне аб тым, наколькі надзейныя (статыстычна значныя) вашы вынікі. Калі значнасць F меншая за 0,05 (5%), ваша мадэль у парадку. Калі яно больш за 0,05, вы бверагодна, лепш выбраць іншую незалежную зменную.

    Вынік рэгрэсійнага аналізу: каэфіцыенты

    У гэтым раздзеле змяшчаецца канкрэтная інфармацыя аб кампанентах вашага аналізу:

    Самы карысны кампанент у гэтым раздзеле - Каэфіцыенты . Гэта дазваляе вам пабудаваць ураўненне лінейнай рэгрэсіі ў Excel:

    y = bx + a

    Для нашага набору даных, дзе y — гэта колькасць прададзеных парасонаў, а x — сярэднямесячная колькасць ападкаў, наша формула лінейнай рэгрэсіі выглядае наступным чынам:

    Y = Rainfall Coefficient * x + Intercept

    Абсталяваны значэннямі a і b, акругленымі да трох знакаў пасля коскі, яна ператвараецца ў:

    Y=0.45*x-19.074

    Напрыклад, пры сярэднямесячнай колькасці ападкаў, роўнай 82 мм, продажы парасонаў будуць складаць прыкладна 17,8:

    0.45*82-19.074=17.8

    Аналагічным чынам вы можаце даведацца, колькі будзе парасонаў прадаецца з любой іншай вызначанай вамі месячнай колькасцю ападкаў (зменная x).

    Вынік рэгрэсійнага аналізу: рэшткі

    Калі вы параўнаеце разліковую і фактычную колькасць прададзеных парасонаў, якія адпавядаюць месячнай колькасці ападкаў 82 мм, вы ўбачыце, што гэтыя лічбы крыху адрозніваюцца:

    • Ацэначна: 17,8 (разлічана вышэй)
    • Фактычна: 15 (радок 2 зыходных даных)

    Чаму розніца? Таму што незалежныя зменныя ніколі не з'яўляюцца ідэальнымі прадказальнікамі залежных зменных. А рэшткі могуць дапамагчы вам зразумець, наколькі далёкія фактычныя значэнні ад прагназуемых:

    Дляпершая кропка дадзеных (колькасць ападкаў 82 мм), рэшта прыкладна -2,8. Такім чынам, мы дадаем гэты лік да прадказанага значэння і атрымліваем фактычнае значэнне: 17,8 - 2,8 = 15.

    Як зрабіць графік лінейнай рэгрэсіі ў Excel

    Калі вам трэба хутка візуалізаваць адносіны паміж дзвюма зменнымі, намаляваць дыяграму лінейнай рэгрэсіі. Гэта вельмі проста! Вось як:

    1. Выберыце два слупкі з вашымі дадзенымі, уключаючы загалоўкі.
    2. На ўкладцы Устаўка ў групе Чаты , пстрыкніце значок Рассекавая дыяграма і выберыце мініяцюру Рассекавая дыяграма (першая):

      Гэта ўставіць дыяграму рассеяння ў ваш аркуш, якая будзе падобная на гэту адзін:

    3. Цяпер нам трэба правесці лінію рэгрэсіі метадам найменшых квадратаў. Каб зрабіць гэта, пстрыкніце правай кнопкай мышы любую кропку і абярыце Дадаць лінію трэнду… з кантэкстнага меню.
    4. На правай панэлі абярыце форму лініі трэнду Лінейная і, пры жаданні, адзначце Паказаць ураўненне на дыяграме , каб атрымаць формулу рэгрэсіі:

      Як вы маглі заўважыць, ураўненне рэгрэсіі, створанае для нас у Excel, такое ж, як і формула лінейнай рэгрэсіі, якую мы пабудавалі на аснове вываду каэфіцыентаў.

    5. Пераключыцеся на Запоўніць & Укладка Line і наладзьце лінію на свой густ. Напрыклад, вы можаце выбраць іншы колер лініі і выкарыстоўваць суцэльную лінію замест пункцірнай (абярыце суцэльную лінію ў полі Тып рыскі ):

    Майкл Браўн - адданы энтузіяст тэхналогій, які любіць спрашчэнне складаных працэсаў з дапамогай праграмных інструментаў. Маючы больш чым дзесяцігадовы досвед працы ў індустрыі тэхналогій, ён удасканальваў свае навыкі ў Microsoft Excel і Outlook, а таксама ў Google Sheets і Docs. Блог Майкла прысвечаны таму, каб падзяліцца сваімі ведамі і вопытам з іншымі, даючы простыя ў выкананні парады і падручнікі для павышэння прадукцыйнасці і эфектыўнасці. Незалежна ад таго, з'яўляецеся вы дасведчаным прафесіяналам або пачаткоўцам, блог Майкла прапануе каштоўную інфармацыю і практычныя парады, каб атрымаць максімальную аддачу ад гэтых неабходных праграмных інструментаў.