
लिनियर रिग्रेशन एक सांख्यिकीय तकनीक है जो दो या दो से अधिक चरों (variables) के बीच संबंध को मॉडल करती है। इसका मुख्य उद्देश्य यह भविष्यवाणी करना है कि एक या अधिक स्वतंत्र चर (independent variables) में परिवर्तन के आधार पर निर्भर चर (dependent variable) कैसे बदलता है।
1. परिचय
1.1. लिनियर रिग्रेशन क्या है?
लिनियर रिग्रेशन एक साधारण विधि है जिसका उपयोग सांख्यिकी और मशीन लर्निंग में व्यापक रूप से किया जाता है। यह एक गणितीय मॉडल है जो एक रेखा को फिट करके स्वतंत्र और निर्भर चर के बीच संबंध को व्यक्त करता है। इसका उपयोग तब किया जाता है जब हमें यह समझना होता है कि एक स्वतंत्र चर का एक निर्भर चर पर क्या प्रभाव पड़ता है।
1.2. उदाहरण
मान लीजिए कि हम यह जानना चाहते हैं कि किसी छात्र के अध्ययन के घंटों का उसके परीक्षा के अंकों पर क्या प्रभाव पड़ता है। यहाँ, “अध्ययन के घंटे” स्वतंत्र चर होंगे और “परीक्षा के अंक” निर्भर चर होंगे। हम लिनियर रिग्रेशन का उपयोग करके यह निर्धारित कर सकते हैं कि अध्ययन के घंटों में वृद्धि के साथ परीक्षा के अंक कितने बढ़ सकते हैं।
2. गणितीय मॉडल
2.1. सरल रेखीय रिग्रेशन
सरल रेखीय रिग्रेशन में, हम एक स्वतंत्र चर ((X)) और एक निर्भर चर ((Y)) का संबंध देखते हैं। यह संबंध एक रेखीय समीकरण द्वारा व्यक्त किया जाता है:
[ Y = \beta_0 + \beta_1 X + \epsilon ]
यहाँ,
- (Y): निर्भर चर
- (X): स्वतंत्र चर
- (\beta_0): इंटरसेप्ट (जहाँ रेखा Y-अक्ष को काटती है)
- (\beta_1): स्लोप (रेखा की ढलान)
- (\epsilon): त्रुटि पद (actual मान और predicted मान के बीच का अंतर)
2.2. बहु-रेखीय रिग्रेशन
जब एक से अधिक स्वतंत्र चर होते हैं, तो हम बहु-रेखीय रिग्रेशन का उपयोग करते हैं। इसका समीकरण निम्नलिखित होता है:
[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_n X_n + \epsilon ]
जहाँ (X_1, X_2, \ldots, X_n) स्वतंत्र चरों का सेट होता है।
3. रिग्रेशन रेखा का निर्धारण
3.1. न्यूनतम वर्ग विधि (Least Squares Method)
लिनियर रिग्रेशन में, हम उस रेखा को खोजते हैं जो सभी डेटा पॉइंट्स के सबसे करीब होती है। इसका मतलब यह है कि हम त्रुटियों (residuals) के वर्गों के योग को न्यूनतम करने का प्रयास करते हैं। इसे न्यूनतम वर्ग विधि कहते हैं।
3.2. रिग्रेशन गुणांक ((\beta_0) और (\beta_1)) की गणना
गुणांक ((\beta_0) और (\beta_1)) की गणना करने के लिए, हम निम्नलिखित सूत्रों का उपयोग करते हैं:
[ \beta_1 = \frac{n\sum{XY} – \sum{X}\sum{Y}}{n\sum{X^2} – (\sum{X})^2} ]
[ \beta_0 = \bar{Y} – \beta_1\bar{X} ]
यहाँ,
- (n): डेटा पॉइंट्स की संख्या
- (\sum{XY}): X और Y का गुणनफल का योग
- (\sum{X}): X का योग
- (\sum{Y}): Y का योग
- (\sum{X^2}): X का वर्ग का योग
- (\bar{X}): X का औसत
- (\bar{Y}): Y का औसत
4. निष्कर्षण (Inference)
4.1. मॉडल का मूल्यांकन
मॉडल का मूल्यांकन करने के लिए हम निम्नलिखित मापदंडों का उपयोग करते हैं:
- R-square (R²): यह यह बताता है कि स्वतंत्र चरों द्वारा निर्भर चर के बदलाव का कितना प्रतिशत समझाया जा सकता है।
- F-टेस्ट: यह यह जाँचता है कि सभी गुणांक एक साथ शून्य हैं या नहीं।
4.2. त्रुटियों का विश्लेषण
त्रुटियों का विश्लेषण करने से हमें यह जानने में मदद मिलती है कि मॉडल कितना सटीक है और इसमें कौन-कौन से कारक शामिल हैं जिन्हें सुधारने की आवश्यकता हो सकती है।
5. व्यावहारिक अनुप्रयोग
5.1. व्यापार में
लिनियर रिग्रेशन का उपयोग व्यापार में मांग पूर्वानुमान, कीमत निर्धारण, और ग्राहक व्यवहार की भविष्यवाणी करने के लिए किया जाता है।
5.2. चिकित्सा में
चिकित्सा क्षेत्र में, यह विभिन्न कारकों और रोगों के बीच संबंध को समझने के लिए उपयोग किया जाता है, जैसे कि किसी दवा का असर।
5.3. सामाजिक विज्ञान में
सामाजिक विज्ञान में, यह सामाजिक और आर्थिक डेटा का विश्लेषण करने के लिए उपयोग किया जाता है।
6. सॉफ्टवेयर और उपकरण
6.1. Excel
Microsoft Excel में भी लिनियर रिग्रेशन का उपयोग किया जा सकता है।
6.2. R और Python
R और Python जैसी प्रोग्रामिंग भाषाओं में विभिन्न लाइब्रेरीज़ उपलब्ध हैं जो लिनियर रिग्रेशन का कार्यान्वयन आसान बनाती हैं, जैसे कि scikit-learn और statsmodels।
लिनियर रिग्रेशन एक सरल और प्रभावी विधि है जो विभिन्न क्षेत्रों में उपयोग की जाती है। यह स्वतंत्र और निर्भर चरों के बीच संबंध को समझने और भविष्यवाणी करने में मदद करता है। इसका सही उपयोग करने से हम डेटा के माध्यम से महत्वपूर्ण अंतर्दृष्टि प्राप्त कर सकते हैं।