تحلیل دادههای طبقهبندی شده با آزمون کای دو (Chi-square test)
مقدمه
آزمون کای دو (Chi-square test) یکی از رایجترین آزمونهای آماری ناپارامتریکی است که برای بررسی استقلال بین دو متغیر دستهبندی شده (دستهای یا اسمی) استفاده میشود.
فرض صفر در آزمون کای دو این است که بین دو متغیر هیچ وابستگی یا ارتباطی وجود ندارد. اگر مقدار p-value آزمون کمتر از سطح معنیداری (معمولاً ۰.۰۵) باشد، فرض صفر رد شده و نتیجهگیری میشود که بین دو متغیر وابستگی آماری معنیداری وجود دارد.
موارد استفاده از آزمون کای دو
- بررسی رابطه بین عوامل خطر و بیماریها در تحقیقات پزشکی
- تجزیه و تحلیل دادههای نظرسنجی برای بررسی ترجیحات و رفتار مصرفکنندگان
- مطالعه روابط بین متغیرهای اجتماعی مانند نژاد، جنسیت و سطح تحصیلات
مثال
فرض کنید میخواهیم بررسی کنیم که آیا بین رنگ مو و رنگ چشم افراد در یک نمونه ۱۰۰ نفری وابستگی وجود دارد یا خیر.
فرضیهها:
- فرض صفر (H0): بین رنگ مو و رنگ چشم هیچ وابستگی وجود ندارد.
- فرض جایگزین (H1): بین رنگ مو و رنگ چشم وابستگی وجود دارد.
مراحل انجام آزمون کای دو:
-
ایجاد جدول توافقی: همانطور که در مثال قبلی توضیح داده شد، ابتدا باید یک جدول توافقی از دادههای خود ایجاد کنید.
-
محاسبه آماره کای دو: از فرمول زیر برای محاسبه آماره کای دو استفاده کنید:
Χ۲ = Σ ( (f_o - f_e)^2 / f_e )
در این فرمول:
Χ۲
آماره کای دو است.f_o
فراوانی مشاهده شده در هر خانه جدول توافقی است.f_e
فراوانی مورد انتظار در هر خانه جدول توافقی است.
-
محاسبه درجات آزادی: درجات آزادی در آزمون کای دو با فرمول زیر محاسبه میشود:
df = (تعداد سطرها - ۱) * (تعداد ستونها - ۱)
-
یافتن مقدار p-value: با استفاده از آماره کای دو و درجات آزادی، مقدار p-value را از جدول توزیع کای دو بدست آورید.
-
تفسیر نتایج: اگر مقدار p-value کمتر از سطح معنیداری (معمولاً ۰.۰۵) باشد، فرض صفر رد شده و نتیجهگیری میشود که بین دو متغیر وابستگی آماری معنیداری وجود دارد.
مثال عددی
فرض کنید جدول توافقی زیر را برای رنگ مو و رنگ چشم ۱۰۰ نفر بدست آوردهایم:
رنگ مو | رنگ چشم | فراوانی | درصد |
---|---|---|---|
قهوهای | آبی | ۲۰ | ۲۰% |
قهوهای | قهوهای | ۳۰ | ۳۰% |
بلوند | آبی | ۲۵ | ۲۵% |
بلوند | قهوهای | ۲۵ | ۲۵% |
سیاه | آبی | ۱۰ | ۱۰% |
سیاه | قهوهای | ۰ | ۰% |
جمع | – | ۱۰۰ | ۱۰۰% |
با استفاده از فرمولهای ارائه شده، آماره کای دو ۱۰.۲۱ و درجات آزادی ۸ بدست میآید.
با مراجعه به جدول توزیع کای دو، مقدار p-value برای این آماره و درجات آزادی ۰.۲۴ است.
تفسیر:
از آنجا که مقدار p-value (0.24) از سطح معنیداری (۰.۰۵) بیشتر است، فرض صفر مبنی بر عدم وجود وابستگی بین رنگ مو و رنگ چشم پذیرفته میشود.