آزمون فرضیه کای دو: شرح جامع با مثال کاربردی
مقدمه:
آزمون کای دو (χ۲) یکی از آزمونهای آماری غیرپارامتری است که کاربردهای گستردهای در زمینههای مختلف مانند علوم اجتماعی، پزشکی و مهندسی دارد. این آزمون برای بررسی دو نوع فرضیه به کار میرود:
-
آزمون استقلال: در این نوع آزمون، به دنبال بررسی این موضوع هستیم که آیا دو متغیر طبقهبندی شده با یکدیگر مستقل هستند یا خیر. به عبارت دیگر، میخواهیم بدانیم که آیا وقوع یک طبقه در یک متغیر، بر احتمال وقوع طبقات در متغیر دیگر تاثیری دارد یا خیر.
-
آزمون برازش: در این نوع آزمون، به دنبال بررسی این موضوع هستیم که آیا توزیع فراوانی مشاهدهشده در یک نمونه، با یک توزیع احتمالی خاص (مثلاً توزیع نرمال) مطابقت دارد یا خیر. به عبارت دیگر، میخواهیم بدانیم که آیا دادههای ما از یک مدل خاص پیروی میکنند یا خیر.
مراحل انجام آزمون کای دو:
-
طرح فرضیهها:
- فرض صفر (H0): فرضیهای که بیان میکند هیچ ارتباطی بین دو متغیر وجود ندارد یا توزیع مشاهدهشده با توزیع مورد انتظار مطابقت دارد.
- فرض جایگزین (H1): فرضیهای که بیان میکند ارتباط معناداری بین دو متغیر وجود دارد یا توزیع مشاهدهشده با توزیع مورد انتظار تفاوت معناداری دارد.
-
ایجاد جدول توافقی: این جدول باید فراوانی مشاهدات را در هر ترکیب از طبقات دو متغیر نشان دهد.
-
محاسبه آماره آزمون کای دو: از فرمول زیر برای محاسبه آماره آزمون کای دو استفاده میشود:
χ۲ = Σ ( (f0 – fe)^2 / fe)
- f0: فراوانی مشاهدهشده در هر سلول جدول توافقی
- fe: فراوانی مورد انتظار در هر سلول جدول توافقی
-
تعیین درجه آزادی: درجه آزادی تعداد سلولهای جدول توافقی است، به منهای تعداد محدودیتهای اعمال شده بر دادهها.
-
انتخاب سطح معنیداری: این سطح نشان میدهد که چه مقدار احتمال خطای نوع اول (رد فرض صفر در حالی که درست است) را میپذیریم. سطح معنیداری رایج ۰.۰۵ است.
-
بدست آوردن مقدار p از جدول توزیع کای دو: با استفاده از درجه آزادی و سطح معنیداری، مقدار p را از جدول توزیع کای دو پیدا کنید.
-
نتیجهگیری:
- اگر مقدار p کمتر از سطح معنیداری باشد، فرض صفر را رد میکنیم و نتیجه میگیریم که شواهد کافی برای وجود ارتباط بین دو متغیر یا عدم برازش توزیع مشاهدهشده با توزیع مورد انتظار وجود دارد.
- اگر مقدار p بیشتر از سطح معنیداری باشد، نمیتوانیم فرض صفر را رد کنیم و به شواهد کافی برای عدم وجود ارتباط بین دو متغیر یا برابری توزیع مشاهدهشده با توزیع مورد انتظار دست پیدا نمیکنیم.
مثال کاربردی:
فرض کنید میخواهیم بدانیم که آیا بین رنگ مو و رنگ چشم افراد ارتباطی وجود دارد یا خیر. برای این منظور، ۱۰۰ نفر را به صورت تصادفی انتخاب میکنیم و رنگ مو و رنگ چشم آنها را ثبت میکنیم. دادههای جمعآوری شده در جدول زیر نشان داده شده است:
رنگ مو | رنگ چشم | فراوانی |
---|---|---|
قهوهای | قهوهای | ۲۰ |
قهوهای | آبی | ۳۰ |
قهوهای | سبز | ۱۵ |
بلوند | قهوهای | ۱۰ |
بلوند | آبی | ۱۵ |
بلوند | سبز | ۱۰ |
۱. طرح فرضیهها:
- H0: بین رنگ مو و رنگ چشم ارتباطی وجود ندارد.
- H1: بین رنگ مو و رنگ چشم ارتباط معناداری وجود دارد.
۲. ایجاد جدول توافقی:
رنگ مو | قهوهای | بلوند | مجموع |
---|---|---|---|
قهوهای | ۲۰ | ۱۰ | ۳ |
۳. محاسبه آماره آزمون کای دو:
با استفاده از فرمول ارائه شده در بالا، آماره آزمون کای دو را محاسبه میکنیم:
χ۲ = ( (۲۰ – ۲۲.۵)^۲ / ۲۲.۵) + ( (۳۰ – ۲۷)^۲ / ۲۷) + ( (۱۵ – ۱۰.۵)^۲ / ۱۰.۵) + ( (۱۰ – ۱۵)^۲ / ۱۵) + ( (۱۵ – ۱۲)^۲ / ۱۲) + ( (۱۰ – ۷.۵)^۲ / ۷.۵) = 6.۲۳
۴. تعیین درجه آزادی:
درجه آزادی تعداد سلولهای جدول توافقی (۶) منهای تعداد محدودیتهای اعمال شده بر دادهها (۱) است.
بنابراین، درجه آزادی = 6 – ۱ = 5
۵. انتخاب سطح معنیداری:
سطح معنیداری رایج ۰.۰۵ است.
۶. بدست آوردن مقدار p از جدول توزیع کای دو:
با استفاده از درجه آزادی (۵) و سطح معنیداری (۰.۰۵)، مقدار p را از جدول توزیع کای دو پیدا میکنیم. مقدار p برابر با ۰.۲۴۰ است.
۷. نتیجهگیری:
از آنجایی که مقدار p (0.240) بیشتر از سطح معنیداری (۰.۰۵) است، نمیتوانیم فرض صفر را رد کنیم. به عبارت دیگر، شواهد کافی برای عدم وجود ارتباط بین رنگ مو و رنگ چشم افراد وجود ندارد.
تفسیر:
با توجه به نتایج این آزمون، میتوان نتیجه گرفت که بین رنگ مو و رنگ چشم افراد ارتباط معناداری وجود ندارد. به عبارت دیگر، رنگ موی افراد تاثیری بر رنگ چشم آنها ندارد.
نکات:
- آزمون کای دو فقط برای متغیرهای طبقهبندی شده قابل استفاده است.
- برای انجام این آزمون، باید حجم نمونه به اندازه کافی بزرگ باشد (حداقل ۵ مشاهده در هر سلول جدول توافقی).
- اگر دادهها دارای مقادیر پرت باشند، ممکن است نتایج آزمون کای دو دقیق نباشند.