انجام عملیات آماری (همبستگی، رگرسیون) در Pandas و scikit-learn
در تجزیه و تحلیل داده، همبستگی و رگرسیون دو تکنیک آماری مهم برای بررسی روابط بین متغیرها هستند. Pandas و scikit-learn به عنوان کتابخانه های قدرتمند در پایتون، ابزارهای مختلفی را برای انجام این عملیات به طور کارآمد و دقیق ارائه می دهند.
۱. محاسبه همبستگی:
- همبستگی پیرسون: قدرت و جهت رابطه خطی بین دو متغیر عددی را اندازه گیری می کند.
Python
import pandas as pd
data = pd.DataFrame({"X": [۱, ۲, ۳, ۴, ۵], "Y": [۲, ۴, ۵, ۴, ۵]})
correlation = data["X"].corr(data["Y"])
print(correlation)
- شاخص همبستگی متریک: قدرت رابطه بین دو متغیر، صرف نظر از جهت آن را اندازه گیری می کند.
Python
import scipy.stats as stats
correlation_coefficient = stats.spearmanr(data["X"], data["Y"])[۰]
print(correlation_coefficient)
۲. تجزیه و تحلیل رگرسیون خطی:
- مدل رگرسیون خطی ساده: رابطه بین یک متغیر وابسته (Y) و یک متغیر مستقل (X) را مدل می کند.
Python
import statsmodels.api as sm
X = sm.add_constant(data["X"])
model = sm.OLS(data["Y"], X).fit()
print(model.summary())
- رگرسیون چندگانه: رابطه بین یک متغیر وابسته (Y) و چندین متغیر مستقل (X1, X2, …) را مدل می کند.
Python
import sklearn.linear_model as lm
X = data[["X1", "X2"]]
model = lm.LinearRegression()
model.fit(X, data["Y"])
print(f"معادله رگرسیون: Y = {model.coef_[۰]} * X1 + {model.coef_[۱]} * X2 + {model.intercept_}")
۳. تفسیر نتایج:
- همبستگی: ضریب همبستگی بین -۱ و ۱ متغیر می شود. ضریب نزدیک به ۰ نشان دهنده عدم وجود رابطه، ضریب مثبت نشان دهنده رابطه مثبت و ضریب منفی نشان دهنده رابطه منفی است.
- رگرسیون خطی: ضرایب رگرسیون نشان می دهد که چگونه تغییرات در هر متغیر مستقل بر متغیر وابسته تأثیر می گذارد. p-value ها نشان می دهد که آیا ضرایب از نظر آماری معنی دار هستند یا خیر.
۴. نکات:
- از نمودارهای پراکندگی برای تجسم رابطه بین متغیرها استفاده کنید.
- فرضیه های اساسی رگرسیون خطی را قبل از انجام تجزیه و تحلیل بررسی کنید.
- از روش های مختلف رگرسیون برای مدل سازی روابط پیچیده تر بین متغیرها استفاده کنید.
با تسلط بر همبستگی و رگرسیون در Pandas و scikit-learn، می توانید بینش های ارزشمندی در مورد روابط بین متغیرها در داده های خود به دست آورید و مدل های پیش بینی کننده قوی بسازید.