विषयसूची
ट्यूटोरियल प्रतिगमन विश्लेषण की मूल बातें समझाता है और एक्सेल में रैखिक प्रतिगमन करने के कुछ अलग तरीके दिखाता है।
यह कल्पना करें: आपको बहुत सारे अलग-अलग डेटा प्रदान किए जाते हैं और आपकी कंपनी के लिए अगले साल की बिक्री संख्या की भविष्यवाणी करने के लिए कहा जाता है। आपने दर्जनों, शायद सैकड़ों ऐसे कारकों की खोज की है जो संभवतः संख्याओं को प्रभावित कर सकते हैं। लेकिन आप कैसे जानते हैं कि वास्तव में कौन से महत्वपूर्ण हैं? Excel में प्रतिगमन विश्लेषण चलाएँ। यह आपको इसका और कई और सवालों का जवाब देगा: कौन से कारक मायने रखते हैं और किन पर ध्यान नहीं दिया जा सकता है? ये कारक एक दूसरे से कितने निकट से संबंधित हैं? और आप भविष्यवाणियों के बारे में कितने निश्चित हो सकते हैं?
एक्सेल में प्रतिगमन विश्लेषण - मूल बातें
सांख्यिकीय मॉडलिंग में, प्रतिगमन विश्लेषण का उपयोग किया जाता है दो या अधिक चरों के बीच संबंधों का अनुमान लगाएं:
आश्रित चर (उर्फ मानदंड चर) वह मुख्य कारक है जिसे आप समझने और भविष्यवाणी करने की कोशिश कर रहे हैं।
स्वतंत्र चर (उर्फ व्याख्यात्मक चर, या पूर्वसूचक ) वे कारक हैं जो आश्रित चर को प्रभावित कर सकते हैं।
प्रतिगमन विश्लेषण आपकी मदद करता है समझें कि निर्भर चर कैसे बदलता है जब स्वतंत्र चर में से एक भिन्न होता है और गणितीय रूप से यह निर्धारित करने की अनुमति देता है कि उनमें से कौन सा चर वास्तव में प्रभाव डालता है।
तकनीकी रूप से, एक प्रतिगमन विश्लेषण मॉडल के योग पर आधारित होता है
इस बिंदु पर, आपका चार्ट पहले से ही एक अच्छे प्रतिगमन ग्राफ की तरह दिखता है:
फिर भी, आप कुछ और सुधार करना चाह सकते हैं:
- समीकरण को जहां भी आप फिट देखते हैं वहां खींचें।
- अक्ष शीर्षक जोड़ें ( चार्ट तत्व बटन > अक्ष शीर्षक )।
- यदि आपका डेटा बिंदु क्षैतिज और/या लंबवत अक्ष के बीच में शुरू होते हैं, जैसे इस उदाहरण में, आप अत्यधिक सफेद स्थान से छुटकारा पाना चाह सकते हैं। निम्नलिखित युक्ति बताती है कि यह कैसे करना है: सफेद स्थान को कम करने के लिए चार्ट अक्षों को स्केल करें।
और हमारा सुधरा हुआ प्रतिगमन ग्राफ इस तरह दिखता है:
महत्वपूर्ण नोट! प्रतिगमन ग्राफ में, स्वतंत्र चर हमेशा एक्स अक्ष पर और आश्रित चर वाई अक्ष पर होना चाहिए। यदि आपका ग्राफ़ उल्टे क्रम में प्लॉट किया गया है, तो अपनी वर्कशीट में कॉलम स्वैप करें और फिर चार्ट को नए सिरे से ड्रा करें। यदि आपको स्रोत डेटा को पुनर्व्यवस्थित करने की अनुमति नहीं है, तो आप X और Y अक्षों को सीधे एक चार्ट में बदल सकते हैं।
सूत्रों का उपयोग करके Excel में प्रतिगमन कैसे करें<7
Microsoft Excel में कुछ सांख्यिकीय फ़ंक्शन हैं जो आपको LINEST, SLOPE, INTERCEPT, और CORREL जैसे रेखीय प्रतिगमन विश्लेषण करने में मदद कर सकते हैं। वह रेखा जो आपके चरों के बीच के संबंध को सबसे अच्छी तरह समझाती है और उस रेखा का वर्णन करने वाली एक सरणी लौटाती है। की विस्तृत व्याख्या प्राप्त कर सकते हैंइस ट्यूटोरियल में फ़ंक्शन का सिंटैक्स। अभी के लिए, आइए अपने नमूना डेटासेट के लिए बस एक सूत्र बनाते हैं:
=LINEST(C2:C25, B2:B25)
क्योंकि LINEST फ़ंक्शन मानों की एक सरणी लौटाता है, इसलिए आपको इसे एक सरणी सूत्र के रूप में दर्ज करना होगा। एक ही पंक्ति में दो आसन्न कोशिकाओं का चयन करें, E2:F2 हमारे मामले में, सूत्र टाइप करें, और इसे पूरा करने के लिए Ctrl + Shift + Enter दबाएं।
सूत्र b गुणांक लौटाता है ( E1) और a स्थिरांक (F1) पहले से ही परिचित रैखिक प्रतिगमन समीकरण के लिए:
y = bx + a
यदि आप अपने वर्कशीट में सरणी सूत्रों का उपयोग करने से बचते हैं, तो आप <की गणना कर सकते हैं। 1>a और b अलग-अलग नियमित सूत्रों के साथ:
Y-अवरोधन प्राप्त करें (a):
=INTERCEPT(C2:C25, B2:B25)
ढलान प्राप्त करें (बी):
=SLOPE(C2:C25, B2:B25)
इसके अतिरिक्त, आप सहसंबंध गुणांक ( एकाधिक आर प्रतिगमन विश्लेषण सारांश आउटपुट में) पा सकते हैं जो इंगित करता है कि कैसे दृढ़ता से दो चर एक दूसरे से संबंधित हैं:
=CORREL(B2:B25,C2:C25)
निम्नलिखित स्क्रीनशॉट इन सभी एक्सेल प्रतिगमन सूत्रों को क्रिया में दिखाता है:
युक्ति। यदि आप अपने प्रतिगमन विश्लेषण के लिए अतिरिक्त आंकड़े प्राप्त करना चाहते हैं, तो LINEST फ़ंक्शन का उपयोग s tats पैरामीटर के साथ TRUE पर सेट करें जैसा कि इस उदाहरण में दिखाया गया है।
इस प्रकार आप रैखिक प्रतिगमन करते हैं एक्सेल में। उस ने कहा, कृपया ध्यान रखें कि Microsoft Excel एक सांख्यिकीय कार्यक्रम नहीं है। यदि आपको पेशेवर स्तर पर प्रतिगमन विश्लेषण करने की आवश्यकता है, तो आप लक्षित का उपयोग करना चाह सकते हैंसॉफ़्टवेयर जैसे XLSTAT, RegressIt, आदि।
इस ट्यूटोरियल में चर्चा की गई हमारे लीनियर रिग्रेशन फ़ार्मुलों और अन्य तकनीकों को करीब से देखने के लिए, नीचे हमारी नमूना कार्यपुस्तिका डाउनलोड करने के लिए आपका स्वागत है। पढ़ने के लिए धन्यवाद!
अभ्यास कार्यपुस्तिका
एक्सेल में प्रतिगमन विश्लेषण - उदाहरण (.xlsx फ़ाइल)
<3वर्ग, जो डेटा बिंदुओं के फैलाव को खोजने का एक गणितीय तरीका है। एक मॉडल का लक्ष्य वर्गों का सबसे छोटा संभव योग प्राप्त करना और एक रेखा खींचना है जो डेटा के सबसे करीब आती है।आँकड़ों में, वे एक साधारण और कई रैखिक प्रतिगमन के बीच अंतर करते हैं। सरल रैखिक प्रतिगमन एक रैखिक फ़ंक्शन का उपयोग करके एक आश्रित चर और एक स्वतंत्र चर के बीच संबंध को मॉडल करता है। यदि आप आश्रित चर की भविष्यवाणी करने के लिए दो या अधिक व्याख्यात्मक चर का उपयोग करते हैं, तो आप एकाधिक रैखिक प्रतिगमन से निपटते हैं। यदि निर्भर चर को एक गैर-रैखिक फ़ंक्शन के रूप में मॉडल किया गया है क्योंकि डेटा संबंध एक सीधी रेखा का पालन नहीं करते हैं, तो इसके बजाय गैर-रैखिक प्रतिगमन का उपयोग करें। इस ट्यूटोरियल का ध्यान एक साधारण रेखीय प्रतिगमन पर होगा।
उदाहरण के तौर पर, आइए पिछले 24 महीनों के लिए छतरियों की बिक्री संख्या लें और उसी अवधि के लिए औसत मासिक वर्षा का पता लगाएं। इस जानकारी को एक चार्ट पर प्लॉट करें, और प्रतिगमन रेखा स्वतंत्र चर (वर्षा) और निर्भर चर (छाता बिक्री) के बीच संबंध प्रदर्शित करेगी:
रैखिक प्रतिगमन समीकरण
गणितीय रूप से, एक रैखिक प्रतिगमन इस समीकरण द्वारा परिभाषित किया गया है:
y = bx + a + εकहां:
- x एक स्वतंत्र चर है।
- y एक आश्रित चर है।
- a Y-अवरोधन है, जो कि अपेक्षित माध्य मान है y जब सभी x चर 0 के बराबर होते हैं। प्रतिगमन ग्राफ पर, यह वह बिंदु है जहां रेखा Y अक्ष को पार करती है।
- b है एक प्रतिगमन रेखा का ढलान , जो कि y के लिए x परिवर्तन के रूप में परिवर्तन की दर है।
- ε यादृच्छिक त्रुटि है पद, जो एक आश्रित चर के वास्तविक मूल्य और उसके अनुमानित मूल्य के बीच का अंतर है। हालाँकि, एक्सेल सहित कुछ प्रोग्राम, पर्दे के पीछे त्रुटि शब्द की गणना करते हैं। तो, एक्सेल में, आप कम से कम वर्ग विधि का उपयोग करके रैखिक प्रतिगमन करते हैं और गुणांक a और b की तलाश करते हैं जैसे कि:
हमारे उदाहरण के लिए, रैखिक प्रतिगमन समीकरण निम्नलिखित आकार लेता है:
Umbrellas sold = b * rainfall + a
a और b<को खोजने के कुछ अलग-अलग तरीके मौजूद हैं। 2>। एक्सेल में रेखीय प्रतिगमन विश्लेषण करने की तीन मुख्य विधियाँ हैं:
- विश्लेषण टूलपैक के साथ शामिल प्रतिगमन उपकरण
- ट्रेंडलाइन के साथ स्कैटर चार्ट
- रैखिक प्रतिगमन सूत्र<14
नीचे आपको प्रत्येक विधि का उपयोग करने पर विस्तृत निर्देश मिलेंगे।
विश्लेषण टूलपैक के साथ एक्सेल में रेखीय प्रतिगमन कैसे करें
यह उदाहरण दिखाता है कि एक्सेल में प्रतिगमन कैसे चलाना है विश्लेषण टूलपैक ऐड-इन के साथ शामिल एक विशेष टूल का उपयोग करके।
विश्लेषण टूलपैक ऐड-इन सक्षम करें-
विश्लेषण टूलपैक एक्सेल 365 से 2003 के सभी संस्करणों में उपलब्ध है लेकिन डिफ़ॉल्ट रूप से सक्षम नहीं है। तो, आपको इसे मैन्युअल रूप से चालू करने की आवश्यकता है। ऐसे:
- अपने एक्सेल में, फाइल > विकल्प पर क्लिक करें।
- एक्सेल विकल्प में संवाद बॉक्स में, बाएं साइडबार पर ऐड-इन्स का चयन करें, सुनिश्चित करें कि Excel ऐड-इन को प्रबंधित करें बॉक्स में चुना गया है, और जाएं<क्लिक करें 2>।
- ऐड-इन्स संवाद बॉक्स में, विश्लेषण टूलपैक पर टिक करें, और ठीक क्लिक करें:
यह आपके एक्सेल रिबन के डेटा टैब में डेटा विश्लेषण टूल जोड़ देगा।
प्रतिगमन विश्लेषण चलाएँ
में इस उदाहरण में, हम एक्सेल में एक साधारण रेखीय प्रतिगमन करने जा रहे हैं। हमारे पास कॉलम बी में पिछले 24 महीनों की औसत मासिक वर्षा की एक सूची है, जो कि हमारा स्वतंत्र चर (पूर्वसूचक) है, और कॉलम सी में बेची गई छतरियों की संख्या, जो निर्भर चर है। बेशक, कई अन्य कारक हैं जो बिक्री को प्रभावित कर सकते हैं, लेकिन अभी के लिए हम केवल इन दो चरों पर ध्यान केंद्रित करते हैं:
विश्लेषण टूलपैक जोड़ा गया है, एक्सेल में प्रतिगमन विश्लेषण करने के लिए इन चरणों को पूरा करें:
- डेटा टैब पर, विश्लेषण समूह में, डेटा विश्लेषण बटन पर क्लिक करें।
- रिग्रेशन चुनें और ओके पर क्लिक करें।
- रिग्रेशन डायलॉग बॉक्स में, निम्न सेटिंग कॉन्फ़िगर करें:
- इनपुट चुनेंवाई रेंज , जो आपका आश्रित चर है। हमारे मामले में, यह अम्ब्रेला सेल्स (C1:C25) है।
- इनपुट X रेंज चुनें, यानी आपका स्वतंत्र चर । इस उदाहरण में, यह औसत मासिक वर्षा (B1:B25) है।
यदि आप एक बहु प्रतिगमन मॉडल बना रहे हैं, तो विभिन्न स्वतंत्र चरों के साथ दो या अधिक सन्निकट स्तंभों का चयन करें।
- लेबल बॉक्स को चेक करें यदि आपकी एक्स और वाई श्रेणियों के शीर्ष पर हेडर हैं।
- अपना पसंदीदा आउटपुट विकल्प चुनें, हमारे में एक नई वर्कशीट मामला।
- वैकल्पिक रूप से, अनुमानित और वास्तविक मूल्यों के बीच अंतर प्राप्त करने के लिए अवशिष्ट चेकबॉक्स का चयन करें।
- ओके पर क्लिक करें और एक्सेल द्वारा बनाए गए प्रतिगमन विश्लेषण आउटपुट का अवलोकन करें।
प्रतिगमन विश्लेषण आउटपुट की व्याख्या करें
जैसा कि आपने अभी देखा है, एक्सेल में रिग्रेशन चलाना आसान है क्योंकि सभी गणनाएँ स्वचालित रूप से पहले से की जाती हैं। परिणामों की व्याख्या थोड़ी पेचीदा है क्योंकि आपको यह जानने की आवश्यकता है कि प्रत्येक संख्या के पीछे क्या है। नीचे आपको प्रतिगमन विश्लेषण आउटपुट के 4 प्रमुख भागों का विश्लेषण मिलेगा।
प्रतिगमन विश्लेषण आउटपुट: सारांश आउटपुट
यह भाग आपको बताता है कि परिकलित रेखीय प्रतिगमन समीकरण आपके स्रोत डेटा में कितनी अच्छी तरह फिट बैठता है।
यहां बताया गया है कि प्रत्येक जानकारी का क्या अर्थ है:
एक से अधिक R । यह सी या संबंध गुणांक है जो की ताकत को मापता हैदो चर के बीच एक रैखिक संबंध। सहसंबंध गुणांक -1 और 1 के बीच कोई भी मान हो सकता है, और इसका निरपेक्ष मान संबंध की मजबूती को दर्शाता है। निरपेक्ष मूल्य जितना बड़ा होगा, संबंध उतना ही मजबूत होगा:
- 1 का अर्थ है मजबूत सकारात्मक संबंध
- -1 का अर्थ है मजबूत नकारात्मक संबंध
- 0 का अर्थ है कोई संबंध नहीं सभी
आर स्क्वायर . यह निर्धारण का गुणांक है, जो फिट की अच्छाई के संकेतक के रूप में उपयोग किया जाता है। यह दर्शाता है कि प्रतिगमन रेखा पर कितने बिंदु गिरते हैं। R2 मान की गणना वर्गों के कुल योग से की जाती है, अधिक सटीक रूप से, यह माध्य से मूल डेटा के वर्ग विचलन का योग है।
हमारे उदाहरण में, R2 0.91 है (2 अंकों में गोल) , जो परी अच्छी है। इसका मतलब है कि हमारे मूल्यों का 91% प्रतिगमन विश्लेषण मॉडल में फिट बैठता है। दूसरे शब्दों में, 91% आश्रित चर (y- मान) को स्वतंत्र चर (x- मान) द्वारा समझाया गया है। आम तौर पर, 95% या उससे अधिक का आर स्क्वायर एक अच्छा फिट माना जाता है।
समायोजित आर स्क्वायर । यह मॉडल में स्वतंत्र चर की संख्या के लिए समायोजित R वर्ग है। आप एकाधिक प्रतिगमन विश्लेषण के लिए R वर्ग के बजाय इस मान का उपयोग करना चाहेंगे।
मानक त्रुटि । यह फिट होने का एक और अच्छा उपाय है जो आपके प्रतिगमन विश्लेषण की सटीकता को दर्शाता है - संख्या जितनी छोटी होगी, आप उतने ही निश्चित हो सकते हैंआपका प्रतिगमन समीकरण। जबकि R2 आश्रित चर भिन्नता के प्रतिशत का प्रतिनिधित्व करता है जिसे मॉडल द्वारा समझाया गया है, मानक त्रुटि एक पूर्ण माप है जो औसत दूरी दिखाती है कि डेटा बिंदु प्रतिगमन रेखा से गिरते हैं।
अवलोकन । यह केवल आपके मॉडल में अवलोकनों की संख्या है। यह वर्गों के योग को अलग-अलग घटकों में विभाजित करता है जो आपके प्रतिगमन मॉडल के भीतर परिवर्तनशीलता के स्तरों के बारे में जानकारी देता है:
- df स्रोतों से जुड़ी स्वतंत्रता की डिग्री की संख्या है प्रसरण का।
- SS वर्गों का योग है। कुल SS की तुलना में अवशिष्ट SS जितना छोटा होगा, आपका मॉडल उतना ही बेहतर होगा।
- MS माध्य वर्ग है।
- F शून्य परिकल्पना के लिए F आँकड़ा या F-परीक्षण है। इसका उपयोग मॉडल के समग्र महत्व का परीक्षण करने के लिए किया जाता है।
- महत्व एफ एफ का पी-मूल्य है।
एनोवा भाग का उपयोग शायद ही कभी किया जाता है एक्सेल में एक सरल रेखीय प्रतिगमन विश्लेषण, लेकिन आपको निश्चित रूप से अंतिम घटक पर करीब से नज़र डालनी चाहिए। महत्व एफ मान यह अनुमान देता है कि आपके परिणाम कितने विश्वसनीय (सांख्यिकीय रूप से महत्वपूर्ण) हैं। यदि महत्व एफ 0.05 (5%) से कम है, तो आपका मॉडल ठीक है। यदि यह 0.05 से अधिक है, तो आप करेंगेशायद बेहतर होगा कि कोई दूसरा स्वतंत्र चर चुनें।
प्रतिगमन विश्लेषण आउटपुट: गुणांक
यह खंड आपके विश्लेषण के घटकों के बारे में विशिष्ट जानकारी प्रदान करता है:
इस खंड में सबसे उपयोगी घटक है गुणांक । यह आपको एक्सेल में एक रेखीय प्रतिगमन समीकरण बनाने में सक्षम बनाता है:
y = bx + aहमारे डेटा सेट के लिए, जहां y बेचे गए छतरियों की संख्या है और x औसत मासिक वर्षा है, हमारा रेखीय प्रतिगमन सूत्र इस प्रकार है:
Y = Rainfall Coefficient * x + Intercept
तीन दशमलव स्थानों पर पूर्णांकित a और b मानों से सुसज्जित, यह इसमें बदल जाता है:
Y=0.45*x-19.074
उदाहरण के लिए, 82 मिमी के बराबर औसत मासिक वर्षा के साथ, छतरी की बिक्री लगभग 17.8 होगी:
0.45*82-19.074=17.8
इसी तरह, आप यह पता लगा सकते हैं कि कितने छाते होने जा रहे हैं आपके द्वारा निर्दिष्ट किसी भी अन्य मासिक वर्षा (x चर) के साथ बेचा जाता है।
प्रतिगमन विश्लेषण आउटपुट: अवशिष्ट
यदि आप 82 मिमी की मासिक वर्षा के अनुरूप बेची गई छतरियों की अनुमानित और वास्तविक संख्या की तुलना करते हैं, आप देखेंगे कि ये संख्याएँ थोड़ी भिन्न हैं:
- अनुमानित: 17.8 (ऊपर गणना की गई)
- वास्तविक: 15 (स्रोत डेटा की पंक्ति 2)
अंतर क्यों है? क्योंकि स्वतंत्र चर कभी भी आश्रित चर के पूर्ण भविष्यवक्ता नहीं होते हैं। और अवशिष्ट आपको यह समझने में मदद कर सकते हैं कि अनुमानित मूल्यों से वास्तविक मूल्य कितने दूर हैं:
के लिएपहला डेटा बिंदु (82 मिमी की वर्षा), अवशिष्ट लगभग-2.8 है। इसलिए, हम इस संख्या को अनुमानित मूल्य में जोड़ते हैं, और वास्तविक मूल्य प्राप्त करते हैं: 17.8 - 2.8 = 15। दो चरों के बीच संबंध, एक रेखीय प्रतिगमन चार्ट बनाएं। यह बहुत आसान है! इसका तरीका यहां दिया गया है:
- हेडर समेत अपने डेटा वाले दो कॉलम चुनें। चैट ग्रुप में इनसेट टैब पर इनसेट , स्कैटर चार्ट आइकन पर क्लिक करें, और स्कैटर थंबनेल (पहला वाला) चुनें:
यह आपकी वर्कशीट में एक स्कैटर प्लॉट डालेगा, जो इसके जैसा होगा एक:
- अब, हमें कम से कम वर्ग प्रतिगमन रेखा खींचने की आवश्यकता है। ऐसा करने के लिए, किसी भी बिंदु पर राइट क्लिक करें और संदर्भ मेनू से ट्रेंडलाइन जोड़ें... चुनें।
- दाएं फलक पर, रैखिक ट्रेंडलाइन आकार का चयन करें और, वैकल्पिक रूप से, चार्ट पर प्रदर्शन समीकरण की जांच करके अपना प्रतिगमन सूत्र प्राप्त करें:
जैसा कि आप देख सकते हैं, एक्सेल ने हमारे लिए जो रिग्रेशन इक्वेशन बनाया है, वह लीनियर रिग्रेशन फॉर्मूला के समान है जिसे हमने गुणांक आउटपुट के आधार पर बनाया है।
- Fill & लाइन टैब और अपनी पसंद के अनुसार लाइन को कस्टमाइज़ करें। उदाहरण के लिए, आप एक अलग लाइन रंग चुन सकते हैं और धराशायी रेखा के बजाय एक ठोस रेखा का उपयोग कर सकते हैं ( डैश प्रकार बॉक्स में ठोस रेखा का चयन करें):