فهرست مطالب

تست فرضیه برای بررسی معنی داری آماری در Pandas و scikit-learn

در تجزیه و تحلیل داده، تست فرضیه ابزاری قدرتمند برای تعیین اینکه آیا شواهد کافی برای رد یک فرضیه خاص (فرضیه صفر) در مورد جمعیت وجود دارد یا خیر، است. Pandas و scikit-learn به عنوان کتابخانه های قدرتمند در پایتون، ابزارهای مختلفی را برای انجام انواع مختلف تست های فرضیه به طور کارآمد و دقیق ارائه می دهند.

1. تست های t:

تست t تک نمونه ای: برای مقایسه میانگین یک نمونه با یک مقدار ثابت استفاده می شود.

Python
 import pandas as pd
from scipy import stats

data = pd.DataFrame({"X": [10, 12, 14, 15, 16]})

mu = 13  # مقدار ثابت

t_statistic, p_value = stats.ttest_1samp(data["X"], mu)

if p_value < 0.05:
    print(f"میانگین نمونه به طور معنی داری با {mu} متفاوت است (p-value = {p_value:.3f})")
else:
    print(f"تفاوت معنی داری بین میانگین نمونه و {mu} وجود ندارد (p-value = {p_value:.3f})")
 

تست t دو نمونه ای: برای مقایسه میانگین دو نمونه مستقل استفاده می شود.

Python
 data1 = pd.DataFrame({"X": [10, 12, 14, 15]})
data2 = pd.DataFrame({"X": [11, 13, 15, 16]})

t_statistic, p_value = stats.ttest_ind(data1["X"], data2["X"])

if p_value < 0.05:
    print("میانگین دو نمونه به طور معنی داری متفاوت است (p-value = {p_value:.3f})")
else:
    print("تفاوت معنی داری بین میانگین دو نمونه وجود ندارد (p-value = {p_value:.3f})")
 

2. آزمون های ANOVA:

ANOVA تک عاملی: برای مقایسه میانگین های بیش از دو گروه نمونه استفاده می شود.

Python
 import statsmodels.api as sm

data = pd.DataFrame({"گروه": ["A", "A", "A", "B", "B", "B", "C", "C"], "X": [10, 12, 14, 11, 13, 15, 16, 17]})

model = sm.ols("X ~ گروه", data=data).fit()

anova = model.anova()
print(anova)
 

ANOVA چند عاملی: برای مقایسه میانگین ها در متغیر وابسته بر اساس چندین متغیر مستقل استفاده می شود.

3. تست های کای دو:

آزمون کای دو استقلال: برای بررسی اینکه آیا دو متغیر طبقه بندی شده مستقل از یکدیگر هستند یا خیر استفاده می شود.

Python
 import pandas as pd
from scipy import stats

data = pd.DataFrame({"رنگ_مو": ["قهوه ای", "قهوه ای", "بلوند", "بلوند", "مشکی", "مشکی"], "رنگ_چشم": ["قهوه ای", "آبی", "قهوه ای", "آبی", "قهوه ای", "آبی"]})

chi2_statistic, p_value = stats.chi2_contingency(data["رنگ_مو"].value_counts().reset_index(name="تعداد")["تعداد"], data["رنگ_چشم"].value_counts().reset_index(name="تعداد")["تعداد"])

if p_value < 0.05:
    print("رنگ مو و رنگ چشم مستقل نیستند (p-value = {p_value:.3f})")
else:
    print("رنگ مو و رنگ چشم مستقل هستند (p-value = {p_value:.3f})")
 

4. نکات:

فرضیه های مناسب را قبل از انجام هر تست فرضیه ای مشخص کنید.
سطح معنی داری (α) را انتخاب کنید.
به p-value توجه کنید و آن را با سطح معنی داری مقایسه کنید.
نتیجه تست فرضیه را تفسیر کنید.

**با تسلط بر تست فرضیه در Pandas و scikit-learn، می توانید شواهد آماری را برای حمایت

0/5 ( 0 امتیاز )

برچسب‌ها

هادی محمدیان ۱۴۰۳/۰۲/۰۴آخرین به روز رسانی: ۱۴۰۳/۰۶/۰۶

۰ 19 خواندن این مطلب 2 دقیقه زمان میبرد

نمایش بیشتر

تست فرضیه برای بررسی معنی داری آماری در Pandas و scikit-learn

1. تست های t:

2. آزمون های ANOVA:

3. تست های کای دو:

4. نکات:

هادی محمدیان

انجام عملیات آماری (همبستگی، رگرسیون) در Pandas و scikit-learn

ایجاد انواع مختلف نمودارها (خطی، میله ای، پراکندگی) با Pandas و Matplotlib

نوشته‌های مشابه

استخراج اطلاعات از متن، تجزیه و تحلیل احساسات و موضوع بندی متن با Pandas

تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها با Pandas

تجزیه و تحلیل قیمت سهام، روند بازار و ریسک سرمایه گذاری با Pandas

ایجاد انواع مختلف نمودارها (خطی، میله ای، پراکندگی) با Pandas و Matplotlib

دیدگاهتان را بنویسید لغو پاسخ