رگرسیون خطی: شرح جامع و ارائه مثال کاربردی
مقدمه
رگرسیون خطی یکی از روشهای آماری پرکاربرد برای مدلسازی رابطه بین دو متغیر است. این روش برای پیشبینی مقادیر یک متغیر (متغیر وابسته) بر اساس مقادیر متغیر دیگر (متغیر مستقل) استفاده میشود. رگرسیون خطی ساده نوعی از رگرسیون خطی است که فقط شامل یک متغیر مستقل است.
معادله رگرسیون خطی ساده:
معادله رگرسیون خطی ساده به صورت زیر است:
Y = α + βX + ε
- Y: متغیر وابسته
- X: متغیر مستقل
- α: ضریب ثابت
- β: ضریب شیب خط
- ε: ترم خطا
مراحل انجام رگرسیون خطی:
- جمعآوری دادهها: اولین قدم جمعآوری دادههای مربوط به متغیرهای وابسته و مستقل است. دادهها باید به صورت زوجهای (X، Y) باشند.
- محاسبه ضرایب رگرسیون: ضرایب رگرسیون α و β با استفاده از روشهای مختلفی مانند حداقل مربعات معمولی (OLS) قابل تخمین هستند.
- تفسیر ضرایب رگرسیون:
- ضریب ثابت (α) نشاندهنده مقدار Y است زمانی که X برابر با صفر باشد.
- ضریب شیب (β) نشاندهنده تغییر Y به ازای هر واحد تغییر در X است.
- ارزیابی مدل: برای ارزیابی مدل رگرسیون از شاخصهای مختلفی مانند R2، Adjusted R2، و p-value استفاده میشود.
- پیشبینی مقادیر جدید: از مدل رگرسیون میتوان برای پیشبینی مقادیر Y برای مقادیر جدید X که در دادههای اولیه وجود نداشتهاند، استفاده کرد.
مثال کاربردی:
فرض کنید میخواهیم رابطه بین میزان مطالعه دانشآموزان (متغیر مستقل) و نمره امتحان آنها (متغیر وابسته) را بررسی کنیم. برای این منظور، از ۲۰ دانشآموز به صورت تصادفی میزان مطالعه و نمره امتحان آنها را جمعآوری میکنیم. دادهها در جدول زیر آمدهاند:
میزان مطالعه (ساعت) | نمره امتحان |
---|---|
۲ | ۵۰ |
۴ | ۶۵ |
۳ | ۵۸ |
۵ | ۷۲ |
۶ | ۸۳ |
۲ | ۴۸ |
۴ | ۶۰ |
۵ | ۷۱ |
۳ | ۵۵ |
۶ | ۷۸ |
۱ | ۴۲ |
۳ | ۵۳ |
۵ | ۶۷ |
۴ | ۶۴ |
۲ | ۵۲ |
۵ | ۷۰ |
۳ | ۵۶ |
۶ | ۸۱ |
۴ | ۶۳ |
۱. جمعآوری دادهها:
همانطور که در جدول بالا مشاهده میشود، دادههای مربوط به میزان مطالعه و نمره امتحان دانشآموزان جمعآوری شدهاند.
۲. محاسبه ضرایب رگرسیون:
با استفاده از نرمافزارهای آماری مانند SPSS یا R میتوان ضرایب رگرسیون را تخمین زد. در این مثال، ضریب ثابت (α) برابر با ۴۰.۵ و ضریب شیب (β) برابر با ۶.۲ است.
۳. تفسیر ضرایب رگرسیون:
- ضریب ثابت (۴۰.۵) نشان میدهد که اگر میزان مطالعه دانشآموز صفر باشد، نمره امتحان او به طور میانگین ۴۰.۵ خواهد بود.
- ضریب شیب (۶.۲) نشان میدهد که به ازای هر ساعت افزایش در میزان مطالعه، نمره امتحان به طور میانگین ۶.۲ نمره افزایش مییابد.
۴. ارزیابی مدل:
در این مثال، مقدار R2 برابر با ۰.۸۲ است، که نشاندهنده برابری خوب بین مدل رگرسیون و دادههای مشاهده شده است.
همچنین، مقدار p-value برای ضریب شیب کمتر از ۰.۰۱ است، که نشاندهنده معناداری آماری این ضریب است.
۵. پیشبینی مقادیر جدید:
از مدل رگرسیون میتوان برای پیشبینی نمره امتحان دانشآموزان جدید با توجه به میزان مطالعه آنها استفاده کرد.
فرض کنید میخواهیم نمره امتحان دانشآموزی که ۷ ساعت مطالعه کرده است را پیشبینی کنیم.
با استفاده از معادله رگرسیون و مقادیر تخمین زده شده برای ضرایب α و β، میتوان نمره امتحان را به صورت زیر پیشبینی کرد:
نمره امتحان پیشبینی شده = 40.۵ + (۶.۲ × ۷) = 85.۷
بنابراین، پیشبینی میشود که نمره امتحان دانشآموزی که ۷ ساعت مطالعه کرده است، ۸۵.۷ باشد.
نکات:
- رگرسیون خطی فقط برای مدلسازی روابط خطی بین متغیرها قابل استفاده است.
- برای استفاده از رگرسیون خطی، باید فرضیات اساسی مانند نرمال بودن توزیع خطاها و هموتواری واریانسها برقرار باشد.
- در صورت نقض فرضیات اساسی، میتوان از روشهای جایگزین مانند رگرسیون خطی تعمیم یافته (GLM) استفاده کرد.