رگرسیون خطی و ضریب همبستگی: درهمآمیختگی مفاهیم
رگرسیون خطی و ضریب همبستگی، دو ابزار آماری مرتبط با بررسی رابطه بین دو متغیر هستند. در حالی که رگرسیون خطی به دنبال مدلسازی این رابطه و پیشبینی مقادیر یک متغیر (متغیر وابسته) با استفاده از مقادیر متغیر دیگر (متغیر مستقل) است، ضریب همبستگی شدت و جهت این رابطه را اندازهگیری میکند.
رگرسیون خطی:
فرض کنید میخواهید رابطه بین میزان مطالعه دانشآموزان در طول یک ترم و نمره نهایی آنها را بررسی کنید. در این مثال:
- متغیر وابسته: نمره نهایی (میزان موفقیت تحصیلی)
- متغیر مستقل: میزان مطالعه (مدت زمان مطالعه در هر هفته)
با استفاده از رگرسیون خطی، معادلهای به دست میآید که نمره نهایی را با توجه به میزان مطالعه پیشبینی میکند.
معادله رگرسیون:
نمره نهایی = β₀ + β₁ * میزان مطالعه + ε
- β₀: عرض از مبدا (نقطه تقاطع خط رگرسیون با محور Y)
- β₁: شیب خط رگرسیون (نشاندهنده تغییر نمره نهایی به ازای یک واحد تغییر در میزان مطالعه)
- ε: خطا (اختلاف بین نمره واقعی و نمره پیشبینیشده)
ضریب همبستگی:
ضریب همبستگی در این مثال، نشان میدهد که تا چه حد نمره نهایی دانشآموزان با میزان مطالعه آنها همجهت یا مخالف حرکت میکند.
مقادیر ضریب همبستگی:
- r = +1: نشان دهنده ی یک همبستگی خطی کامل مثبت است. به این معنی که با افزایش یک واحد در متغیر X، متغیر Y نیز به طور کامل یک واحد افزایش مییابد.
- r = 0: نشان دهنده ی عدم وجود همبستگی خطی بین دو متغیر است.
- r = -1: نشان دهنده ی یک همبستگی خطی کامل منفی است. به این معنی که با افزایش یک واحد در متغیر X، متغیر Y به طور کامل یک واحد کاهش مییابد.
تفسیر ضریب همبستگی:
- مقدار مطلق r: هرچه مقدار مطلق r به ۱ نزدیکتر باشد، نشان دهنده ی همبستگی قویتر بین دو متغیر است.
- علامت r: علامت r جهت رابطه بین دو متغیر را نشان میدهد.
- r مثبت: نشان دهنده ی همبستگی مستقیم بین دو متغیر است. به این معنی که با افزایش یک واحد در متغیر X، متغیر Y نیز افزایش مییابد.
- r منفی: نشان دهنده ی همبستگی معکوس بین دو متغیر است. به این معنی که با افزایش یک واحد در متغیر X، متغیر Y کاهش مییابد.
رابطه بین رگرسیون خطی و ضریب همبستگی:
- ضریب همبستگی از معادله رگرسیون خطی به دست نمیآید.
- ضریب همبستگی فقط شدت و جهت رابطه ی خطی بین دو متغیر را نشان میدهد و نمیتواند وجود علت و معلول بین دو متغیر را ثابت کند.
- برای تفسیر صحیح ضریب همبستگی باید به فرضهای آماری رگرسیون خطی توجه شود.
- وجود ناهنجاری در دادهها میتواند بر محاسبه ضریب همبستگی تاثیر بگذارد.
مثال:
فرض کنید دادههای ۱۰ دانشآموز را جمعآوری کردهایم:
میزان مطالعه (ساعت در هفته) | نمره نهایی |
---|---|
۲ | ۶۰ |
۴ | ۷۵ |
۳ | ۶۸ |
۵ | ۸۴ |
۶ | ۹۰ |
۷ | ۸۷ |
۱ | ۵۵ |
۳ | ۶۶ |
۵ | ۸۲ |
۲ | ۶۲ |
با استفاده از رگرسیون خطی، معادله رگرسیون زیر به دست میآید:
نمره نهایی = 50 + ۶ * میزان مطالعه
این معادله نشان میدهد که با افزایش یک ساعت در میزان مطالعه دانشآموزان، به طور متوسط ۶ نمره به نمره نهایی آنها اضافه میشود.
ضریب همبستگی برای این دادهها r = 0.85 است.
این نشان میدهد که بین میزان مطالعه و نمره نهایی دانشآموزان یک همبستگی خطی مثبت قوی وجود دارد. به این معنی که با افزایش میزان مطالعه دانشآموزان، نمره نهایی آنها نیز به طور معنیداری افزایش مییابد.
نکته:
مهم است که به خاطر داشته باشید که همبستگی به معنای علیت نیست. در این مثال، نمیتوان با اطمینان گفت که افزایش میزان مطالعه باعث افزایش نمره نهایی دانشآموزان میشود. ممکن است عوامل دیگری نیز در این رابطه نقش داشته باشند.
کاربردهای رگرسیون خطی و ضریب همبستگی:
- در علوم مختلف مانند روانشناسی، جامعه شناسی، اقتصاد و … برای بررسی رابطه بین متغیرهای مختلف استفاده میشود.
- برای پیشبینی مقدار یک متغیر با استفاده از مقادیر متغیر دیگر کاربرد دارد.
- در مدلسازی آماری برای بررسی روابط بین متغیرها و حذف متغیرهای اضافی استفاده میشود.