فهرست مطالب
این آموزش اصول اولیه تحلیل رگرسیون را توضیح میدهد و چند روش مختلف برای انجام رگرسیون خطی در اکسل نشان میدهد.
این را تصور کنید: دادههای مختلف و بسیار زیادی در اختیار شما قرار میگیرد. از آنها خواسته می شود که اعداد فروش سال آینده شرکت شما را پیش بینی کنند. شما ده ها، شاید حتی صدها عامل را کشف کرده اید که احتمالاً می توانند بر اعداد تأثیر بگذارند. اما چگونه می توان فهمید که کدام یک واقعا مهم هستند؟ آنالیز رگرسیون را در اکسل اجرا کنید. این به شما پاسخی به این و بسیاری از سوالات دیگر خواهد داد: کدام عوامل مهم هستند و کدام را می توان نادیده گرفت؟ این عوامل چقدر به یکدیگر مرتبط هستند؟ و چقدر می توانید در مورد پیش بینی ها مطمئن باشید؟
تحلیل رگرسیون در اکسل - مبانی
در مدل سازی آماری، تحلیل رگرسیون برای تخمین روابط بین دو یا چند متغیر:
متغیر وابسته (معروف به متغیر معیار ) عامل اصلی است که شما سعی در درک و پیش بینی آن دارید.
متغیرهای مستقل (با نام مستعار متغیرهای توضیحی، یا پیشبینیکنندهها ) عواملی هستند که ممکن است بر متغیر وابسته تأثیر بگذارند.
تحلیل رگرسیون به شما کمک میکند. درک کنید که وقتی یکی از متغیرهای مستقل تغییر می کند، متغیر وابسته چگونه تغییر می کند و اجازه می دهد تا از نظر ریاضی مشخص شود که کدام یک از آن متغیرها واقعاً تأثیر دارد.
از لحاظ فنی، یک مدل تحلیل رگرسیون بر اساس مجموع از
در این مرحله، نمودار شما از قبل مانند یک نمودار رگرسیون مناسب به نظر میرسد:
با این وجود، ممکن است بخواهید چند پیشرفت دیگر انجام دهید:
- معادله را هر کجا که مناسب میدانید بکشید.
- عناوین محورها را اضافه کنید (دکمه عناصر نمودار > عناوین محور ).
- اگر نقاط داده مانند این مثال از وسط محور افقی و/یا عمودی شروع می شوند، ممکن است بخواهید از شر فضای سفید بیش از حد خلاص شوید. نکته زیر نحوه انجام این کار را توضیح می دهد: محورهای نمودار را برای کاهش فضای سفید مقیاس کنید.
و نمودار رگرسیون بهبود یافته ما به این صورت است:
نکته مهم! در نمودار رگرسیون، متغیر مستقل همیشه باید روی محور X و متغیر وابسته روی محور Y باشد. اگر نمودار شما به ترتیب معکوس رسم شده است، ستون های کاربرگ خود را عوض کنید و سپس نمودار را دوباره رسم کنید. اگر مجاز به تنظیم مجدد داده های منبع نیستید، می توانید مستقیماً محورهای X و Y را در نمودار تغییر دهید.
نحوه انجام رگرسیون در اکسل با استفاده از فرمول ها
Microsoft Excel دارای چند توابع آماری است که می تواند به شما در انجام تحلیل رگرسیون خطی مانند LINEST، SLOPE، INTERCEPT و CORREL کمک کند.
تابع LINEST از روش رگرسیون حداقل مربعات برای محاسبه مستقیم استفاده می کند. خطی که رابطه بین متغیرهای شما را به بهترین شکل توضیح می دهد و آرایه ای را که آن خط را توصیف می کند برمی گرداند. شما می توانید توضیحات مفصل را پیدا کنیدنحو تابع در این آموزش. در حال حاضر، اجازه دهید فقط یک فرمول برای مجموعه داده نمونه خود بسازیم:
=LINEST(C2:C25, B2:B25)
از آنجا که تابع LINEST آرایه ای از مقادیر را برمی گرداند، باید آن را به عنوان فرمول آرایه وارد کنید. دو سلول مجاور را در یک ردیف انتخاب کنید، در مورد ما E2:F2، فرمول را تایپ کنید و Ctrl + Shift + Enter را فشار دهید تا کامل شود.
فرمول ضریب b را برمی گرداند ( E1) و ثابت a (F1) برای معادله رگرسیون خطی از قبل آشنا:
y = bx + a
اگر از استفاده از فرمول های آرایه در کاربرگ های خود اجتناب می کنید، می توانید <را محاسبه کنید. 1>a و b به صورت جداگانه با فرمول های منظم:
Get the Y-intercept (a):
=INTERCEPT(C2:C25, B2:B25)
Get the slope (ب):
=SLOPE(C2:C25, B2:B25)
علاوه بر این، میتوانید ضریب همبستگی ( R چندگانه در خروجی خلاصه تحلیل رگرسیون) را پیدا کنید که نشان میدهد چگونه این دو متغیر به شدت به یکدیگر مرتبط هستند:
=CORREL(B2:B25,C2:C25)
تصویر صفحه زیر تمام این فرمول های رگرسیون اکسل را در عمل نشان می دهد:
نکته. اگر میخواهید آمار بیشتری برای تجزیه و تحلیل رگرسیون خود دریافت کنید، از تابع LINEST با پارامتر s tats که در این مثال نشان داده شده روی TRUE تنظیم شده است استفاده کنید.
به این ترتیب رگرسیون خطی را انجام میدهید. در اکسل با این حال، لطفاً به خاطر داشته باشید که Microsoft Excel یک برنامه آماری نیست. اگر نیاز به انجام تحلیل رگرسیون در سطح حرفه ای دارید، ممکن است بخواهید از هدفمند استفاده کنیدنرم افزارهایی مانند XLSTAT، RegressIt و غیره.
برای مشاهده دقیق فرمول های رگرسیون خطی و سایر تکنیک های مورد بحث در این آموزش، می توانید نمونه کار ما را در زیر دانلود کنید. ممنون که خواندید!
کتاب کار تمرینی
تحلیل رگرسیون در اکسل - مثالها (فایل xlsx.)
<3Squares، که یک روش ریاضی برای یافتن پراکندگی نقاط داده است. هدف یک مدل بدست آوردن کوچکترین مجموع مربعات ممکن و رسم خطی است که به داده ها نزدیکتر است.در آمار، آنها بین رگرسیون خطی ساده و چندگانه تفاوت قائل می شوند. رگرسیون خطی ساده رابطه بین یک متغیر وابسته و یک متغیر مستقل را با استفاده از یک تابع خطی مدل می کند. اگر از دو یا چند متغیر توضیحی برای پیش بینی متغیر وابسته استفاده کنید، با رگرسیون خطی چندگانه سروکار دارید. اگر متغیر وابسته به عنوان یک تابع غیر خطی مدلسازی میشود، زیرا روابط دادهها از یک خط مستقیم پیروی نمیکنند، به جای آن از رگرسیون غیرخطی استفاده کنید. تمرکز این آموزش بر روی یک رگرسیون خطی ساده خواهد بود.
به عنوان مثال، بیایید اعداد فروش چترها در 24 ماه گذشته را در نظر بگیریم و میانگین بارندگی ماهانه برای همان دوره را دریابیم. این اطلاعات را روی یک نمودار رسم کنید و خط رگرسیون رابطه بین متغیر مستقل (بارندگی) و متغیر وابسته (فروش چتر) را نشان می دهد:
معادله رگرسیون خطی
از نظر ریاضی، یک رگرسیون خطی با این معادله تعریف می شود:
y = bx + a + εکه در آن:
- x یک متغیر مستقل است.
- y یک متغیر وابسته است.
- a Y-intercept است، که مقدار میانگین مورد انتظار از y وقتی همه متغیرهای x برابر با 0 باشند. در نمودار رگرسیونی، این نقطه ای است که خط از محور Y عبور می کند.
- b است. شیب خط رگرسیون، که نرخ تغییر برای y با تغییر x است.
- ε خطای تصادفی است. term، که تفاوت بین مقدار واقعی یک متغیر وابسته و مقدار پیشبینیشده آن است.
معادله رگرسیون خطی همیشه یک عبارت خطا دارد، زیرا در زندگی واقعی، پیشبینیکنندهها هرگز کاملاً دقیق نیستند. با این حال، برخی از برنامه ها، از جمله اکسل، در پشت صحنه محاسبه خطا را انجام می دهند. بنابراین، در اکسل، رگرسیون خطی را با استفاده از روش کمترین مربعات انجام میدهید و ضرایب a و b را بهگونهای جستجو میکنید که:
y = bx + aبرای مثال ما، معادله رگرسیون خطی به شکل زیر است:
Umbrellas sold = b * rainfall + a
چندتا راه مختلف برای یافتن a و b<وجود دارد. 2>. سه روش اصلی برای انجام تحلیل رگرسیون خطی در اکسل عبارتند از:
- ابزار رگرسیون همراه با Analysis ToolPak
- نمودار پراکندگی با خط روند
- فرمول رگرسیون خطی
در زیر دستورالعمل های دقیق استفاده از هر روش را مشاهده خواهید کرد.
نحوه انجام رگرسیون خطی در اکسل با Analysis ToolPak
این مثال نحوه اجرای رگرسیون در اکسل را نشان می دهد. با استفاده از ابزار ویژه ای که با افزونه Analysis ToolPak ارائه شده است.
افزونه Analysis ToolPak را فعال کنید.in
Analysis ToolPak در تمام نسخه های Excel 365 تا 2003 موجود است اما به طور پیش فرض فعال نیست. بنابراین، شما باید آن را به صورت دستی روشن کنید. به این صورت است:
- در اکسل خود، روی File > Options کلیک کنید.
- در Excel Options کادر محاورهای، افزونهها را در نوار کناری سمت چپ انتخاب کنید، مطمئن شوید که افزونههای Excel در کادر Manage انتخاب شده است، و روی Go<کلیک کنید. 2>.
- در کادر محاوره ای افزونه ها ، Analysis Toolpak را علامت بزنید و OK را کلیک کنید:
با این کار ابزارهای تحلیل داده به تب داده روبان اکسل شما اضافه می شود.
تحلیل رگرسیون را اجرا کنید
در در این مثال، ما یک رگرسیون خطی ساده در اکسل انجام می دهیم. آنچه ما داریم فهرستی از میانگین بارندگی ماهانه 24 ماه گذشته در ستون B است که متغیر مستقل ما (پیش بینی کننده) است و تعداد چترهای فروخته شده در ستون C که متغیر وابسته است. البته، عوامل بسیار دیگری نیز وجود دارند که میتوانند بر فروش تأثیر بگذارند، اما در حال حاضر ما فقط روی این دو متغیر تمرکز میکنیم:
با فعال بودن بسته ابزار تجزیه و تحلیل، این مراحل را برای انجام تحلیل رگرسیون در اکسل انجام دهید:
- در برگه Data ، در گروه Analysis ، روی دکمه Data Analysis کلیک کنید.
- Regression را انتخاب کنید و OK را کلیک کنید.
- در کادر گفتگوی Regression ، تنظیمات زیر را پیکربندی کنید:
- ورودی را انتخاب کنیدمحدوده Y که متغیر وابسته شما است . در مورد ما، فروش چتری است (C1:C25).
- Input X Range ، یعنی متغیر مستقل خود را انتخاب کنید. در این مثال، میانگین بارندگی ماهانه (B1:B25) است.
اگر در حال ساخت یک مدل رگرسیون چندگانه هستید، دو یا چند ستون مجاور با متغیرهای مستقل متفاوت را انتخاب کنید.
- اگر سرصفحه در بالای محدوده X و Y شما وجود دارد، کادر Labels را علامت بزنید.
- گزینه خروجی دلخواه خود را انتخاب کنید، کاربرگ جدیدی را در ما انتخاب کنید. case.
- در صورت تمایل، کادر انتخاب Residuals را انتخاب کنید تا تفاوت بین مقادیر پیش بینی شده و واقعی را بدست آورید.
- روی OK کلیک کنید و خروجی تحلیل رگرسیون ایجاد شده توسط اکسل را مشاهده کنید.
تفسیر خروجی تحلیل رگرسیون
همانطور که مشاهده کردید، اجرای رگرسیون در اکسل آسان است زیرا تمام محاسبات به صورت خودکار انجام می شوند. تفسیر نتایج کمی پیچیدهتر است زیرا باید بدانید پشت هر عدد چه چیزی وجود دارد. در زیر شما تجزیه و تحلیل 4 بخش اصلی خروجی تحلیل رگرسیون را خواهید دید.
خروجی تحلیل رگرسیون: خروجی خلاصه
این قسمت به شما می گوید که معادله رگرسیون خطی محاسبه شده چقدر با داده های منبع شما مطابقت دارد.
در اینجا معنی هر قطعه از اطلاعات آمده است:
Multiple R . این ضریب همبستگی C است که قدرت را اندازه گیری می کندرابطه خطی بین دو متغیر ضریب همبستگی می تواند هر مقداری بین 1- و 1 باشد و مقدار مطلق آن نشان دهنده قدرت رابطه است. هرچه قدر مطلق بزرگتر باشد، رابطه قوی تر است:
- 1 به معنای یک رابطه مثبت قوی است
- -1 به معنای یک رابطه منفی قوی
- 0 به معنای عدم وجود رابطه در همه
R Square . این ضریب تعیین است که به عنوان شاخص خوبی از تناسب استفاده می شود. نشان می دهد که چند نقطه روی خط رگرسیون قرار می گیرد. مقدار R2 از مجموع مجموع مربع ها محاسبه می شود، به طور دقیق تر، مجموع انحرافات مجذور داده های اصلی از میانگین است.
در مثال ما، R2 0.91 است (به 2 رقم گرد شده) ، که خیلی خوب است. این بدان معنی است که 91٪ از مقادیر ما با مدل تحلیل رگرسیون مطابقت دارد. به عبارت دیگر، 91 درصد از متغیرهای وابسته (y-values) توسط متغیرهای مستقل (x-values) توضیح داده می شوند. به طور کلی، مربع R 95٪ یا بیشتر به عنوان یک تناسب خوب در نظر گرفته می شود.
R مربع تنظیم شده . این مربع R است که برای تعداد متغیر مستقل در مدل تنظیم شده است. شما می خواهید از این مقدار به جای R مربع برای تحلیل رگرسیون چندگانه استفاده کنید.
خطای استاندارد . این یکی دیگر از معیارهای برازش است که دقت تحلیل رگرسیون شما را نشان می دهد - هرچه این عدد کوچکتر باشد، می توانید در مورد آن مطمئن تر باشید.معادله رگرسیون شما در حالی که R2 نشان دهنده درصد واریانس متغیرهای وابسته است که توسط مدل توضیح داده شده است، خطای استاندارد یک اندازه گیری مطلق است که میانگین فاصله ای که نقاط داده از خط رگرسیون می افتند را نشان می دهد.
مشاهدات این به سادگی تعداد مشاهدات در مدل شما است.
خروجی تحلیل رگرسیون: ANOVA
بخش دوم خروجی آنالیز واریانس (ANOVA) است:
اصولا، مجموع مربع ها را به اجزای جداگانه تقسیم می کند که اطلاعاتی در مورد سطوح تغییرپذیری در مدل رگرسیونی شما می دهد:
- df تعداد درجات آزادی مرتبط با منابع است. واریانس.
- SS مجموع مربعات است. هرچه Residual SS در مقایسه با Total SS کوچکتر باشد، مدل شما بهتر با داده ها مطابقت دارد.
- MS میانگین مربع است.
- F آماره F یا آزمون F برای فرضیه صفر است. برای آزمایش اهمیت کلی مدل استفاده می شود.
- اهمیت F مقدار P از F است.
قسمت ANOVA به ندرت برای یک آنالیز رگرسیون خطی ساده در اکسل، اما قطعا باید به آخرین مؤلفه نگاهی دقیق داشته باشید. مقدار Significance F ایده ای از قابل اعتماد بودن (از لحاظ آماری معنی دار) نتایج شما را ارائه می دهد. اگر اهمیت F کمتر از 0.05 (5%) باشد، مدل شما خوب است. اگر بزرگتر از 0.05 باشد، این کار را انجام می دهیداحتمالاً بهتر است متغیر مستقل دیگری را انتخاب کنید.
خروجی تحلیل رگرسیون: ضرایب
این بخش اطلاعات خاصی در مورد اجزای تجزیه و تحلیل شما ارائه می دهد:
مفیدترین مؤلفه در این بخش ضرایب . این به شما امکان می دهد یک معادله رگرسیون خطی در اکسل بسازید:
y = bx + aبرای مجموعه داده ما، که در آن y تعداد چترهای فروخته شده و x میانگین بارندگی ماهانه است. فرمول رگرسیون خطی ما به شرح زیر است:
Y = Rainfall Coefficient * x + Intercept
مجهز به مقادیر a و b گرد شده به سه رقم اعشار، تبدیل به:
Y=0.45*x-19.074
به عنوان مثال، با میانگین بارندگی ماهانه برابر با 82 میلی متر، فروش چتر تقریباً 17.8 خواهد بود:
0.45*82-19.074=17.8
به روشی مشابه، می توانید بفهمید که چه تعداد چتر قرار است باشد. با هر بارندگی ماهانه دیگری (متغیر x) که مشخص میکنید فروخته میشود.
خروجی تحلیل رگرسیون: باقیماندهها
اگر تعداد تخمینی و واقعی چترهای فروخته شده را مطابق با بارش ماهانه 82 میلیمتر مقایسه کنید، خواهید دید که این اعداد کمی متفاوت هستند:
- تخمین زده شده: 17.8 (محاسبه در بالا)
- واقعی: 15 (ردیف 2 داده های منبع)
چرا این تفاوت وجود دارد؟ زیرا متغیرهای مستقل هرگز پیش بینی کننده کامل متغیرهای وابسته نیستند. و باقیمانده ها می توانند به شما کمک کنند تا بفهمید مقادیر واقعی چقدر از مقادیر پیش بینی شده فاصله دارند:
برایاولین نقطه داده (بارندگی 82 میلی متر)، باقیمانده تقریباً 2.8- است. بنابراین، این عدد را به مقدار پیش بینی شده اضافه می کنیم و مقدار واقعی را بدست می آوریم: 17.8 - 2.8 = 15.
نحوه ایجاد نمودار رگرسیون خطی در اکسل
اگر نیاز به تجسم سریع دارید رابطه بین دو متغیر، نمودار رگرسیون خطی را رسم کنید. این خیلی آسان است! به این صورت است:
- دو ستون را با دادههای خود از جمله سرصفحهها انتخاب کنید.
- در برگه Inset ، در گروه Chats ، روی نماد نمودار پراکندگی کلیک کنید و تصویر بندانگشتی Scatter (اولین مورد) را انتخاب کنید:
این یک نمودار پراکندگی را در کاربرگ شما وارد می کند که شبیه به این خواهد بود. یک:
- اکنون، باید خط رگرسیون حداقل مربعات را رسم کنیم. برای انجام این کار، روی هر نقطه کلیک راست کرده و Add Trendline… را از منوی زمینه انتخاب کنید.
- در قسمت سمت راست، شکل خط روند Linear را انتخاب کنید و به صورت اختیاری، Display Equation on Chart را علامت بزنید تا فرمول رگرسیون خود را دریافت کنید:
همانطور که متوجه شدید، معادله رگرسیونی که اکسل برای ما ایجاد کرده است، همان فرمول رگرسیون خطی است که بر اساس خروجی Coefficients ساخته ایم.
- به پر کردن & Line را بزنید و خط را مطابق میل خود سفارشی کنید. برای مثال، میتوانید رنگ خط متفاوتی را انتخاب کنید و به جای خط چین از یک خط ثابت استفاده کنید (خط جامد را در کادر نوع خط تیره انتخاب کنید):