Съдържание
В урока са обяснени основите на регресионния анализ и са показани няколко различни начина за извършване на линейна регресия в Excel.
Представете си следното: разполагате с множество различни данни и трябва да прогнозирате продажбите на вашата компания през следващата година. Открили сте десетки, а може би дори стотици фактори, които могат да повлияят на цифрите. Но как да разберете кои от тях са наистина важни? Извършете регресионен анализ в Excel. Той ще ви даде отговор на този и на още много въпроси: Кои факториКолко тясно са свързани тези фактори помежду си? И доколко можете да сте сигурни в прогнозите?
Регресионен анализ в Excel - основи
В статистическото моделиране, регресионен анализ се използва за оценка на връзките между две или повече променливи:
Зависима променлива (известен още като критерий променлива) е основният фактор, който се опитвате да разберете и прогнозирате.
Независими променливи (известен още като обяснителен променливи или предиктори ) са факторите, които могат да повлияят на зависимата променлива.
Регресионният анализ ви помага да разберете как се променя зависимата променлива при промяна на една от независимите променливи и позволява математически да се определи коя от тези променливи наистина оказва влияние.
Технически, моделът на регресионен анализ се основава на сума на квадратите , което е математически начин за намиране на дисперсията на точките с данни. Целта на модела е да се получи възможно най-малката сума на квадратите и да се начертае линия, която се доближава най-много до данните.
В статистиката се прави разлика между проста и множествена линейна регресия. Проста линейна регресия моделира връзката между зависима променлива и една независима променлива с помощта на линейна функция. Ако използвате две или повече обяснителни променливи, за да прогнозирате зависимата променлива, имате работа с множествена линейна регресия Ако зависимата променлива се моделира като нелинейна функция, тъй като връзките между данните не следват права линия, използвайте нелинейна регресия Вместо това. Фокусът на този урок ще бъде върху проста линейна регресия.
Като пример, нека вземем данните за продажбите на чадъри за последните 24 месеца и да открием средните месечни валежи за същия период. Поставете тази информация на диаграма и регресионната линия ще покаже връзката между независимата променлива (валежите) и зависимата променлива (продажбите на чадъри):
Уравнение на линейната регресия
Математически линейната регресия се определя от това уравнение:
y = bx + a + εКъде:
- x е независима променлива.
- y е зависима променлива.
- a е Y-интерцепция , което е очакваната средна стойност на y когато всички x На регресионната графика това е точката, в която линията пресича оста Y.
- b е наклон на регресионна линия, която представлява скоростта на изменение за y като x промени.
- ε е членът на случайната грешка, който представлява разликата между действителната стойност на зависимата променлива и нейната прогнозна стойност.
Уравнението на линейната регресия винаги съдържа член на грешка, тъй като в реалния живот прогнозите никога не са напълно точни. Някои програми, включително Excel, обаче извършват изчислението на члена на грешката зад кулисите. Така в Excel правите линейна регресия, като използвате най-малки квадрати метод и търсене на коефициенти a и b така че:
y = bx + aЗа нашия пример уравнението на линейната регресия има следната форма:
Продадени чадъри = b * валежи + a
Съществуват няколко различни начина за намиране на a и b Трите основни метода за извършване на линеен регресионен анализ в Excel са:
- Инструмент за регресия, включен в пакета Analysis ToolPak
- Диаграма на разсейване с линия на тенденцията
- Формула за линейна регресия
По-долу ще намерите подробни инструкции за използването на всеки метод.
Как се прави линейна регресия в Excel с Analysis ToolPak
В този пример е показано как да се извърши регресия в Excel с помощта на специален инструмент, включен в добавката Analysis ToolPak.
Активиране на добавката Analysis ToolPak
Analysis ToolPak е наличен във всички версии на Excel от 365 до 2003 г., но не е активиран по подразбиране. Затова трябва да го включите ръчно. Ето как:
- В Excel щракнете върху Файл > Опции .
- В Опции за Excel диалогов прозорец, изберете Добавки в лявата странична лента, уверете се, че Добавки за Excel е избран в Управление на и щракнете върху Отидете на .
- В Добавки диалоговия прозорец, отметнете Инструменти за анализ и щракнете върху OK :
Това ще добави Анализ на данните инструменти към Данни на лентата на Excel.
Извършване на регресионен анализ
В този пример ще направим проста линейна регресия в Excel. Имаме списък на средните месечни валежи за последните 24 месеца в колона В, която е нашата независима променлива (предсказващ фактор), и броя на продадените чадъри в колона В, която е зависимата променлива. Разбира се, има много други фактори, които могат да повлияят на продажбите, но засега се фокусираме само върху тези две променливи:
След като добавите Analysis Toolpak, изпълнете следните стъпки, за да извършите регресионен анализ в Excel:
- На Данни в раздела Анализ щракнете върху групата Анализ на данните бутон.
- Изберете Регресия и щракнете върху ОК .
- В Регресия диалогов прозорец, конфигурирайте следните настройки:
- Изберете Диапазон на входа Y , което е вашето зависима променлива В нашия случай това са продажбите на чадъри (C1:C25).
- Изберете Диапазон на входа X , т.е. вашият независима променлива В този пример това са средните месечни валежи (B1:B25).
Ако изграждате модел на множествена регресия, изберете две или повече съседни колони с различни независими променливи.
- Проверете Кутия за етикети ако има заглавия в горната част на диапазоните X и Y.
- Изберете предпочитания от вас Опция за изход, нов работен лист в нашия случай.
- По желание изберете Остатъчни стойности за да получите разликата между прогнозираните и действителните стойности.
- Кликнете върху ОК и наблюдавайте резултата от регресионния анализ, създаден от Excel.
Интерпретиране на резултатите от регресионния анализ
Както току-що видяхте, провеждането на регресия в Excel е лесно, тъй като всички изчисления се извършват автоматично. Интерпретацията на резултатите е малко по-сложна, защото трябва да знаете какво се крие зад всяко число. По-долу ще намерите разбивка на 4 основни части на резултата от регресионния анализ.
Резултат от регресионния анализ: Обобщение на резултата
Тази част ви показва доколко изчисленото уравнение на линейната регресия съответства на изходните ви данни.
Ето какво означава всяка част от информацията:
Множество R . Това е C или коефициент на корелация Коефициентът на корелация може да бъде всякаква стойност между -1 и 1, а абсолютната му стойност показва силата на връзката. Колкото по-голяма е абсолютната стойност, толкова по-силна е връзката:
- 1 означава силна положителна връзка
- -1 означава силна отрицателна връзка
- 0 означава, че няма никаква връзка
R квадрат . Това е Коефициент на детерминация , която се използва като показател за доброто напасване. тя показва колко точки попадат върху регресионната линия. Стойността на R2 се изчислява от общата сума на квадратите, по-точно тя е сумата на квадратните отклонения на първоначалните данни от средната стойност.
В нашия пример R2 е 0,91 (закръглено до 2 цифри), което е феерично добро. Това означава, че 91% от нашите стойности отговарят на модела на регресионния анализ. С други думи, 91% от зависимите променливи (стойностите y) се обясняват от независимите променливи (стойностите x). По принцип R Squared от 95% или повече се счита за добро съответствие.
Коригиран R квадрат . Това е R квадрат коригирана за броя на независимите променливи в модела. Ще искате да използвате тази стойност вместо R квадрат за множествен регресионен анализ.
Стандартна грешка Това е друга мярка за добро съответствие, която показва точността на вашия регресионен анализ - колкото по-малко е числото, толкова по-сигурни можете да бъдете за вашето регресионно уравнение. Докато R2 представлява процентът от дисперсията на зависимите променливи, който се обяснява от модела, стандартната грешка е абсолютна мярка, която показва средното разстояние, на което точките от данни се намират от регресионното уравнение.линия.
Наблюдения Това е просто броят на наблюденията във вашия модел.
Резултат от регресионния анализ: ANOVA
Втората част на резултата е анализ на вариациите (ANOVA):
По принцип той разделя сумата на квадратите на отделни компоненти, които дават информация за нивата на променливост в регресионния модел:
- df е броят на степените на свобода, свързани с източниците на дисперсия.
- SS Колкото по-малка е остатъчната SS в сравнение с общата SS, толкова по-добре моделът ви отговаря на данните.
- MS е средната квадратна стойност.
- F е статистиката F или F-тест за нулевата хипотеза. Използва се за проверка на общата значимост на модела.
- Значимост F е P-стойността на F.
Частта ANOVA рядко се използва за обикновен линеен регресионен анализ в Excel, но определено трябва да разгледате внимателно последния компонент. Значимост F дава представа за това колко надеждни (статистически значими) са вашите резултати. Ако Significance F е по-малък от 0,05 (5%), вашият модел е наред. Ако е по-голям от 0,05, вероятно е по-добре да изберете друга независима променлива.
Резултат от регресионния анализ: коефициенти
Този раздел предоставя конкретна информация за компонентите на вашия анализ:
Най-полезният компонент в този раздел е Коефициенти . Тя ви позволява да построите уравнение на линейна регресия в Excel:
y = bx + aЗа нашия набор от данни, където y е броят на продадените чадъри, а x е средното месечно количество валежи, нашата формула за линейна регресия е следната:
Y = Коефициент на валежите * x + Интерцепция
С помощта на стойностите a и b, закръглени до три знака след десетичната запетая, се получава:
Y=0,45*x-19,074
Например при средни месечни валежи, равни на 82 mm, продажбите на чадъри ще бъдат приблизително 17,8:
0.45*82-19.074=17.8
По подобен начин можете да разберете колко чадъра ще бъдат продадени при всеки друг посочен от вас месечен валеж (променлива x).
Резултат от регресионния анализ: остатъци
Ако сравните прогнозния и действителния брой продадени чадъри, съответстващи на месечните валежи от 82 мм, ще видите, че тези цифри са малко по-различни:
- Очаквано: 17,8 (изчислено по-горе)
- Действителни: 15 (ред 2 от изходните данни)
Защото независимите променливи никога не са перфектни предиктори на зависимите променливи. А остатъчните стойности могат да ви помогнат да разберете колко далеч са действителните стойности от прогнозираните:
За първата точка от данни (валеж от 82 mm) остатъчната стойност е приблизително -2,8. Така че добавяме това число към прогнозираната стойност и получаваме действителната стойност: 17,8 - 2,8 = 15.
Как да направите линейна регресионна графика в Excel
Ако трябва бързо да визуализирате връзката между двете променливи, съставете линейна регресионна диаграма. Това е много лесно! Ето как:
- Изберете двете колони с вашите данни, включително заглавията.
- На Вмъкване на в раздела Чатове щракнете върху групата Диаграма на разсейване и изберете Разпръскване миниатюра (първата):
Това ще вмъкне в работния ви лист диаграма на разсейване, която ще прилича на тази:
- Сега трябва да начертаем регресионната линия на най-малките квадрати. За да го направите, щракнете с десния бутон на мишката върху някоя точка и изберете Добавяне на Trendline... от контекстното меню.
- В десния прозорец изберете Линейна форма на линията на тенденцията и, по желание, проверка на Показване на уравнението на диаграмата за да получите формулата за регресия:
Както може би забелязвате, уравнението на регресията, което Excel създаде за нас, е същото като формулата за линейна регресия, която създадохме въз основа на изхода за коефициенти.
- Преминете към Запълване & Line и персонализирайте линията по свой вкус. Например можете да изберете различен цвят на линията и да използвате плътна линия вместо прекъсната (изберете Плътна линия в Тип тире кутия):
В този момент графиката ви вече прилича на прилична регресионна графика:
Все пак може да искате да направите още няколко подобрения:
- Плъзнете уравнението, където намерите за добре.
- Добавяне на заглавия на осите ( Елементи на диаграмата бутон> Заглавия на Оси ).
- Ако точките ви с данни започват в средата на хоризонталната и/или вертикалната ос, както в този пример, може да искате да се отървете от излишното бяло пространство. Следващият съвет обяснява как да направите това: Мащабирайте осите на диаграмата, за да намалите бялото пространство.
Ето как изглежда нашата подобрена регресионна графика:
Важна забележка! В регресионната графика независимата променлива винаги трябва да е на оста X, а зависимата променлива - на оста Y. Ако графиката ви е начертана в обратен ред, разменете колоните в работния лист и след това начертайте графиката наново. Ако не ви е позволено да пренареждате изходните данни, можете да размените осите X и Y директно в графиката.
Как да правите регресия в Excel с помощта на формули
Microsoft Excel разполага с няколко статистически функции, които могат да ви помогнат да направите линеен регресионен анализ, като LINEST, SLOPE, INTERCEPT и CORREL.
Функцията LINEST използва метода на регресия по метода на най-малките квадрати, за да изчисли права линия, която най-добре обяснява връзката между вашите променливи, и връща масив, описващ тази линия. Подробно обяснение на синтаксиса на функцията можете да намерите в този урок. Засега нека просто създадем формула за нашата примерна съвкупност от данни:
=НАЙ-КРАТКО(C2:C25, B2:B25)
Тъй като функцията LINEST връща масив от стойности, трябва да я въведете като формула за масив. Изберете две съседни клетки в един и същи ред, E2:F2 в нашия случай, въведете формулата и натиснете Ctrl + Shift + Enter, за да я завършите.
Формулата връща b коефициента (E1) и a константа (F1) за вече познатото уравнение на линейната регресия:
y = bx + a
Ако избягвате да използвате формули за масиви в работните си листове, можете да изчислите a и b поотделно с обикновени формули:
Получете пресечната точка Y (a):
=ИНТЕРЦЕПЦИЯ(C2:C25, B2:B25)
Получете наклона (b):
=НАКЛОН(C2:C25, B2:B25)
Освен това можете да намерите коефициент на корелация ( Множество R в обобщения резултат от регресионния анализ), който показва колко силно са свързани двете променливи помежду си:
=CORREL(B2:B25,C2:C25)
Следващата снимка на екрана показва всички тези регресионни формули на Excel в действие:
Съвет: Ако искате да получите допълнителни статистически данни за регресионния си анализ, използвайте функцията LINEST с командата s татуировки зададен на TRUE, както е показано в този пример.
Ето как се прави линейна регресия в Excel. При това, моля, имайте предвид, че Microsoft Excel не е статистическа програма. Ако трябва да извършвате регресионен анализ на професионално ниво, може да искате да използвате целеви софтуер, като XLSTAT, RegressIt и др.
За да разгледате по-отблизо нашите формули за линейна регресия и други техники, разгледани в този урок, можете да изтеглите нашата примерна работна книга по-долу. Благодарим ви, че прочетохте!
Практическа работна тетрадка
Регресионен анализ в Excel - примери (.xlsx файл)