تحلیل رگرسیون خطی در اکسل

فهرست مطالب

این آموزش اصول اولیه تحلیل رگرسیون را توضیح می‌دهد و چند روش مختلف برای انجام رگرسیون خطی در اکسل نشان می‌دهد.

این را تصور کنید: داده‌های مختلف و بسیار زیادی در اختیار شما قرار می‌گیرد. از آنها خواسته می شود که اعداد فروش سال آینده شرکت شما را پیش بینی کنند. شما ده ها، شاید حتی صدها عامل را کشف کرده اید که احتمالاً می توانند بر اعداد تأثیر بگذارند. اما چگونه می توان فهمید که کدام یک واقعا مهم هستند؟ آنالیز رگرسیون را در اکسل اجرا کنید. این به شما پاسخی به این و بسیاری از سوالات دیگر خواهد داد: کدام عوامل مهم هستند و کدام را می توان نادیده گرفت؟ این عوامل چقدر به یکدیگر مرتبط هستند؟ و چقدر می توانید در مورد پیش بینی ها مطمئن باشید؟

تحلیل رگرسیون در اکسل - مبانی

در مدل سازی آماری، تحلیل رگرسیون برای تخمین روابط بین دو یا چند متغیر:

متغیر وابسته (معروف به متغیر معیار ) عامل اصلی است که شما سعی در درک و پیش بینی آن دارید.

متغیرهای مستقل (با نام مستعار متغیرهای توضیحی، یا پیش‌بینی‌کننده‌ها ) عواملی هستند که ممکن است بر متغیر وابسته تأثیر بگذارند.

تحلیل رگرسیون به شما کمک می‌کند. درک کنید که وقتی یکی از متغیرهای مستقل تغییر می کند، متغیر وابسته چگونه تغییر می کند و اجازه می دهد تا از نظر ریاضی مشخص شود که کدام یک از آن متغیرها واقعاً تأثیر دارد.

از لحاظ فنی، یک مدل تحلیل رگرسیون بر اساس مجموع از

در این مرحله، نمودار شما از قبل مانند یک نمودار رگرسیون مناسب به نظر می‌رسد:

با این وجود، ممکن است بخواهید چند پیشرفت دیگر انجام دهید:

معادله را هر کجا که مناسب می‌دانید بکشید.
عناوین محورها را اضافه کنید (دکمه عناصر نمودار > عناوین محور ).
اگر نقاط داده مانند این مثال از وسط محور افقی و/یا عمودی شروع می شوند، ممکن است بخواهید از شر فضای سفید بیش از حد خلاص شوید. نکته زیر نحوه انجام این کار را توضیح می دهد: محورهای نمودار را برای کاهش فضای سفید مقیاس کنید.
و نمودار رگرسیون بهبود یافته ما به این صورت است:
نکته مهم! در نمودار رگرسیون، متغیر مستقل همیشه باید روی محور X و متغیر وابسته روی محور Y باشد. اگر نمودار شما به ترتیب معکوس رسم شده است، ستون های کاربرگ خود را عوض کنید و سپس نمودار را دوباره رسم کنید. اگر مجاز به تنظیم مجدد داده های منبع نیستید، می توانید مستقیماً محورهای X و Y را در نمودار تغییر دهید.

نحوه انجام رگرسیون در اکسل با استفاده از فرمول ها

Microsoft Excel دارای چند توابع آماری است که می تواند به شما در انجام تحلیل رگرسیون خطی مانند LINEST، SLOPE، INTERCEPT و CORREL کمک کند.

تابع LINEST از روش رگرسیون حداقل مربعات برای محاسبه مستقیم استفاده می کند. خطی که رابطه بین متغیرهای شما را به بهترین شکل توضیح می دهد و آرایه ای را که آن خط را توصیف می کند برمی گرداند. شما می توانید توضیحات مفصل را پیدا کنیدنحو تابع در این آموزش. در حال حاضر، اجازه دهید فقط یک فرمول برای مجموعه داده نمونه خود بسازیم:

=LINEST(C2:C25, B2:B25)

از آنجا که تابع LINEST آرایه ای از مقادیر را برمی گرداند، باید آن را به عنوان فرمول آرایه وارد کنید. دو سلول مجاور را در یک ردیف انتخاب کنید، در مورد ما E2:F2، فرمول را تایپ کنید و Ctrl + Shift + Enter را فشار دهید تا کامل شود.

فرمول ضریب b را برمی گرداند ( E1) و ثابت a (F1) برای معادله رگرسیون خطی از قبل آشنا:

y = bx + a

اگر از استفاده از فرمول های آرایه در کاربرگ های خود اجتناب می کنید، می توانید <را محاسبه کنید. 1>a و b به صورت جداگانه با فرمول های منظم:

Get the Y-intercept (a):

=INTERCEPT(C2:C25, B2:B25)

Get the slope (ب):

=SLOPE(C2:C25, B2:B25)

علاوه بر این، می‌توانید ضریب همبستگی ( R چندگانه در خروجی خلاصه تحلیل رگرسیون) را پیدا کنید که نشان می‌دهد چگونه این دو متغیر به شدت به یکدیگر مرتبط هستند:

=CORREL(B2:B25,C2:C25)

تصویر صفحه زیر تمام این فرمول های رگرسیون اکسل را در عمل نشان می دهد:

نکته. اگر می‌خواهید آمار بیشتری برای تجزیه و تحلیل رگرسیون خود دریافت کنید، از تابع LINEST با پارامتر s tats که در این مثال نشان داده شده روی TRUE تنظیم شده است استفاده کنید.

به این ترتیب رگرسیون خطی را انجام می‌دهید. در اکسل با این حال، لطفاً به خاطر داشته باشید که Microsoft Excel یک برنامه آماری نیست. اگر نیاز به انجام تحلیل رگرسیون در سطح حرفه ای دارید، ممکن است بخواهید از هدفمند استفاده کنیدنرم افزارهایی مانند XLSTAT، RegressIt و غیره.

برای مشاهده دقیق فرمول های رگرسیون خطی و سایر تکنیک های مورد بحث در این آموزش، می توانید نمونه کار ما را در زیر دانلود کنید. ممنون که خواندید!

کتاب کار تمرینی

تحلیل رگرسیون در اکسل - مثالها (فایل xlsx.)

<3Squares، که یک روش ریاضی برای یافتن پراکندگی نقاط داده است. هدف یک مدل بدست آوردن کوچکترین مجموع مربعات ممکن و رسم خطی است که به داده ها نزدیکتر است.

در آمار، آنها بین رگرسیون خطی ساده و چندگانه تفاوت قائل می شوند. رگرسیون خطی ساده رابطه بین یک متغیر وابسته و یک متغیر مستقل را با استفاده از یک تابع خطی مدل می کند. اگر از دو یا چند متغیر توضیحی برای پیش بینی متغیر وابسته استفاده کنید، با رگرسیون خطی چندگانه سروکار دارید. اگر متغیر وابسته به عنوان یک تابع غیر خطی مدل‌سازی می‌شود، زیرا روابط داده‌ها از یک خط مستقیم پیروی نمی‌کنند، به جای آن از رگرسیون غیرخطی استفاده کنید. تمرکز این آموزش بر روی یک رگرسیون خطی ساده خواهد بود.

به عنوان مثال، بیایید اعداد فروش چترها در 24 ماه گذشته را در نظر بگیریم و میانگین بارندگی ماهانه برای همان دوره را دریابیم. این اطلاعات را روی یک نمودار رسم کنید و خط رگرسیون رابطه بین متغیر مستقل (بارندگی) و متغیر وابسته (فروش چتر) را نشان می دهد:

معادله رگرسیون خطی

از نظر ریاضی، یک رگرسیون خطی با این معادله تعریف می شود:

y = bx + a + ε

که در آن:

x یک متغیر مستقل است.
y یک متغیر وابسته است.
a Y-intercept است، که مقدار میانگین مورد انتظار از y وقتی همه متغیرهای x برابر با 0 باشند. در نمودار رگرسیونی، این نقطه ای است که خط از محور Y عبور می کند.
b است. شیب خط رگرسیون، که نرخ تغییر برای y با تغییر x است.
ε خطای تصادفی است. term، که تفاوت بین مقدار واقعی یک متغیر وابسته و مقدار پیش‌بینی‌شده آن است.

معادله رگرسیون خطی همیشه یک عبارت خطا دارد، زیرا در زندگی واقعی، پیش‌بینی‌کننده‌ها هرگز کاملاً دقیق نیستند. با این حال، برخی از برنامه ها، از جمله اکسل، در پشت صحنه محاسبه خطا را انجام می دهند. بنابراین، در اکسل، رگرسیون خطی را با استفاده از روش کمترین مربعات انجام می‌دهید و ضرایب a و b را به‌گونه‌ای جستجو می‌کنید که:

y = bx + a

برای مثال ما، معادله رگرسیون خطی به شکل زیر است:

Umbrellas sold = b * rainfall + a

چندتا راه مختلف برای یافتن a و b<وجود دارد. 2>. سه روش اصلی برای انجام تحلیل رگرسیون خطی در اکسل عبارتند از:

ابزار رگرسیون همراه با Analysis ToolPak
نمودار پراکندگی با خط روند
فرمول رگرسیون خطی

در زیر دستورالعمل های دقیق استفاده از هر روش را مشاهده خواهید کرد.

نحوه انجام رگرسیون خطی در اکسل با Analysis ToolPak

این مثال نحوه اجرای رگرسیون در اکسل را نشان می دهد. با استفاده از ابزار ویژه ای که با افزونه Analysis ToolPak ارائه شده است.

افزونه Analysis ToolPak را فعال کنید.in

Analysis ToolPak در تمام نسخه های Excel 365 تا 2003 موجود است اما به طور پیش فرض فعال نیست. بنابراین، شما باید آن را به صورت دستی روشن کنید. به این صورت است:

در اکسل خود، روی File > Options کلیک کنید.
در Excel Options کادر محاوره‌ای، افزونه‌ها را در نوار کناری سمت چپ انتخاب کنید، مطمئن شوید که افزونه‌های Excel در کادر Manage انتخاب شده است، و روی Go<کلیک کنید. 2>.
در کادر محاوره ای افزونه ها ، Analysis Toolpak را علامت بزنید و OK را کلیک کنید:

با این کار ابزارهای تحلیل داده به تب داده روبان اکسل شما اضافه می شود.

تحلیل رگرسیون را اجرا کنید

در در این مثال، ما یک رگرسیون خطی ساده در اکسل انجام می دهیم. آنچه ما داریم فهرستی از میانگین بارندگی ماهانه 24 ماه گذشته در ستون B است که متغیر مستقل ما (پیش بینی کننده) است و تعداد چترهای فروخته شده در ستون C که متغیر وابسته است. البته، عوامل بسیار دیگری نیز وجود دارند که می‌توانند بر فروش تأثیر بگذارند، اما در حال حاضر ما فقط روی این دو متغیر تمرکز می‌کنیم:

با فعال بودن بسته ابزار تجزیه و تحلیل، این مراحل را برای انجام تحلیل رگرسیون در اکسل انجام دهید:

در برگه Data ، در گروه Analysis ، روی دکمه Data Analysis کلیک کنید.
Regression را انتخاب کنید و OK را کلیک کنید.
در کادر گفتگوی Regression ، تنظیمات زیر را پیکربندی کنید:
- ورودی را انتخاب کنیدمحدوده Y که متغیر وابسته شما است . در مورد ما، فروش چتری است (C1:C25).
- Input X Range ، یعنی متغیر مستقل خود را انتخاب کنید. در این مثال، میانگین بارندگی ماهانه (B1:B25) است.
اگر در حال ساخت یک مدل رگرسیون چندگانه هستید، دو یا چند ستون مجاور با متغیرهای مستقل متفاوت را انتخاب کنید.
- اگر سرصفحه در بالای محدوده X و Y شما وجود دارد، کادر Labels را علامت بزنید.
- گزینه خروجی دلخواه خود را انتخاب کنید، کاربرگ جدیدی را در ما انتخاب کنید. case.
- در صورت تمایل، کادر انتخاب Residuals را انتخاب کنید تا تفاوت بین مقادیر پیش بینی شده و واقعی را بدست آورید.
روی OK کلیک کنید و خروجی تحلیل رگرسیون ایجاد شده توسط اکسل را مشاهده کنید.

تفسیر خروجی تحلیل رگرسیون

همانطور که مشاهده کردید، اجرای رگرسیون در اکسل آسان است زیرا تمام محاسبات به صورت خودکار انجام می شوند. تفسیر نتایج کمی پیچیده‌تر است زیرا باید بدانید پشت هر عدد چه چیزی وجود دارد. در زیر شما تجزیه و تحلیل 4 بخش اصلی خروجی تحلیل رگرسیون را خواهید دید.

خروجی تحلیل رگرسیون: خروجی خلاصه

این قسمت به شما می گوید که معادله رگرسیون خطی محاسبه شده چقدر با داده های منبع شما مطابقت دارد.

در اینجا معنی هر قطعه از اطلاعات آمده است:

Multiple R . این ضریب همبستگی C است که قدرت را اندازه گیری می کندرابطه خطی بین دو متغیر ضریب همبستگی می تواند هر مقداری بین 1- و 1 باشد و مقدار مطلق آن نشان دهنده قدرت رابطه است. هرچه قدر مطلق بزرگتر باشد، رابطه قوی تر است:

همچنین ببینید: آموزش جدول محوری Google Sheets – نحوه ایجاد و نمونه

1 به معنای یک رابطه مثبت قوی است
-1 به معنای یک رابطه منفی قوی
0 به معنای عدم وجود رابطه در همه

R Square . این ضریب تعیین است که به عنوان شاخص خوبی از تناسب استفاده می شود. نشان می دهد که چند نقطه روی خط رگرسیون قرار می گیرد. مقدار R2 از مجموع مجموع مربع ها محاسبه می شود، به طور دقیق تر، مجموع انحرافات مجذور داده های اصلی از میانگین است.

در مثال ما، R2 0.91 است (به 2 رقم گرد شده) ، که خیلی خوب است. این بدان معنی است که 91٪ از مقادیر ما با مدل تحلیل رگرسیون مطابقت دارد. به عبارت دیگر، 91 درصد از متغیرهای وابسته (y-values) توسط متغیرهای مستقل (x-values) توضیح داده می شوند. به طور کلی، مربع R 95٪ یا بیشتر به عنوان یک تناسب خوب در نظر گرفته می شود.

R مربع تنظیم شده . این مربع R است که برای تعداد متغیر مستقل در مدل تنظیم شده است. شما می خواهید از این مقدار به جای R مربع برای تحلیل رگرسیون چندگانه استفاده کنید.

خطای استاندارد . این یکی دیگر از معیارهای برازش است که دقت تحلیل رگرسیون شما را نشان می دهد - هرچه این عدد کوچکتر باشد، می توانید در مورد آن مطمئن تر باشید.معادله رگرسیون شما در حالی که R2 نشان دهنده درصد واریانس متغیرهای وابسته است که توسط مدل توضیح داده شده است، خطای استاندارد یک اندازه گیری مطلق است که میانگین فاصله ای که نقاط داده از خط رگرسیون می افتند را نشان می دهد.

مشاهدات این به سادگی تعداد مشاهدات در مدل شما است.

خروجی تحلیل رگرسیون: ANOVA

بخش دوم خروجی آنالیز واریانس (ANOVA) است:

اصولا، مجموع مربع ها را به اجزای جداگانه تقسیم می کند که اطلاعاتی در مورد سطوح تغییرپذیری در مدل رگرسیونی شما می دهد:

df تعداد درجات آزادی مرتبط با منابع است. واریانس.
SS مجموع مربعات است. هرچه Residual SS در مقایسه با Total SS کوچکتر باشد، مدل شما بهتر با داده ها مطابقت دارد.
MS میانگین مربع است.
F آماره F یا آزمون F برای فرضیه صفر است. برای آزمایش اهمیت کلی مدل استفاده می شود.
اهمیت F مقدار P از F است.

قسمت ANOVA به ندرت برای یک آنالیز رگرسیون خطی ساده در اکسل، اما قطعا باید به آخرین مؤلفه نگاهی دقیق داشته باشید. مقدار Significance F ایده ای از قابل اعتماد بودن (از لحاظ آماری معنی دار) نتایج شما را ارائه می دهد. اگر اهمیت F کمتر از 0.05 (5%) باشد، مدل شما خوب است. اگر بزرگتر از 0.05 باشد، این کار را انجام می دهیداحتمالاً بهتر است متغیر مستقل دیگری را انتخاب کنید.

خروجی تحلیل رگرسیون: ضرایب

این بخش اطلاعات خاصی در مورد اجزای تجزیه و تحلیل شما ارائه می دهد:

مفیدترین مؤلفه در این بخش ضرایب . این به شما امکان می دهد یک معادله رگرسیون خطی در اکسل بسازید:

y = bx + a

برای مجموعه داده ما، که در آن y تعداد چترهای فروخته شده و x میانگین بارندگی ماهانه است. فرمول رگرسیون خطی ما به شرح زیر است:

Y = Rainfall Coefficient * x + Intercept

مجهز به مقادیر a و b گرد شده به سه رقم اعشار، تبدیل به:

Y=0.45*x-19.074

به عنوان مثال، با میانگین بارندگی ماهانه برابر با 82 میلی متر، فروش چتر تقریباً 17.8 خواهد بود:

همچنین ببینید: محاسبه زمان در Google Sheets

0.45*82-19.074=17.8

به روشی مشابه، می توانید بفهمید که چه تعداد چتر قرار است باشد. با هر بارندگی ماهانه دیگری (متغیر x) که مشخص می‌کنید فروخته می‌شود.

خروجی تحلیل رگرسیون: باقیمانده‌ها

اگر تعداد تخمینی و واقعی چترهای فروخته شده را مطابق با بارش ماهانه 82 میلی‌متر مقایسه کنید، خواهید دید که این اعداد کمی متفاوت هستند:

تخمین زده شده: 17.8 (محاسبه در بالا)
واقعی: 15 (ردیف 2 داده های منبع)

چرا این تفاوت وجود دارد؟ زیرا متغیرهای مستقل هرگز پیش بینی کننده کامل متغیرهای وابسته نیستند. و باقیمانده ها می توانند به شما کمک کنند تا بفهمید مقادیر واقعی چقدر از مقادیر پیش بینی شده فاصله دارند:

برایاولین نقطه داده (بارندگی 82 میلی متر)، باقیمانده تقریباً 2.8- است. بنابراین، این عدد را به مقدار پیش بینی شده اضافه می کنیم و مقدار واقعی را بدست می آوریم: 17.8 - 2.8 = 15.

نحوه ایجاد نمودار رگرسیون خطی در اکسل

اگر نیاز به تجسم سریع دارید رابطه بین دو متغیر، نمودار رگرسیون خطی را رسم کنید. این خیلی آسان است! به این صورت است:

دو ستون را با داده‌های خود از جمله سرصفحه‌ها انتخاب کنید.
در برگه Inset ، در گروه Chats ، روی نماد نمودار پراکندگی کلیک کنید و تصویر بندانگشتی Scatter (اولین مورد) را انتخاب کنید:
این یک نمودار پراکندگی را در کاربرگ شما وارد می کند که شبیه به این خواهد بود. یک:
اکنون، باید خط رگرسیون حداقل مربعات را رسم کنیم. برای انجام این کار، روی هر نقطه کلیک راست کرده و Add Trendline… را از منوی زمینه انتخاب کنید.
در قسمت سمت راست، شکل خط روند Linear را انتخاب کنید و به صورت اختیاری، Display Equation on Chart را علامت بزنید تا فرمول رگرسیون خود را دریافت کنید:
همانطور که متوجه شدید، معادله رگرسیونی که اکسل برای ما ایجاد کرده است، همان فرمول رگرسیون خطی است که بر اساس خروجی Coefficients ساخته ایم.
به پر کردن & Line را بزنید و خط را مطابق میل خود سفارشی کنید. برای مثال، می‌توانید رنگ خط متفاوتی را انتخاب کنید و به جای خط چین از یک خط ثابت استفاده کنید (خط جامد را در کادر نوع خط تیره انتخاب کنید):

پست قبلی نوار ابزار دسترسی سریع در اکسل: نحوه سفارشی سازی، انتقال و تنظیم مجدد

پست بعدی نحوه استفاده از تابع MIN در اکسل

Michael Brown

مایکل براون یک علاقه‌مند به فناوری است که علاقه زیادی به ساده‌سازی فرآیندهای پیچیده با استفاده از ابزارهای نرم‌افزاری دارد. او با بیش از یک دهه تجربه در صنعت فناوری، مهارت های خود را در Microsoft Excel و Outlook و همچنین Google Sheets و Docs تقویت کرده است. وبلاگ مایکل اختصاص داده شده است تا دانش و تخصص خود را با دیگران به اشتراک بگذارد و نکات و آموزش هایی را برای بهبود بهره وری و کارایی ارائه دهد. چه یک حرفه ای با تجربه باشید و چه مبتدی، وبلاگ مایکل، بینش های ارزشمند و توصیه های عملی را برای استفاده حداکثری از این ابزارهای نرم افزاری ضروری ارائه می دهد.

#EXCELTIPS