علوم داده

انجام عملیات آماری (همبستگی، رگرسیون) در Pandas و scikit-learn

انجام عملیات آماری (همبستگی، رگرسیون) در Pandas و scikit-learn

در تجزیه و تحلیل داده، همبستگی و رگرسیون دو تکنیک آماری مهم برای بررسی روابط بین متغیرها هستند. Pandas و scikit-learn به عنوان کتابخانه های قدرتمند در پایتون، ابزارهای مختلفی را برای انجام این عملیات به طور کارآمد و دقیق ارائه می دهند.

1. محاسبه همبستگی:

  • همبستگی پیرسون: قدرت و جهت رابطه خطی بین دو متغیر عددی را اندازه گیری می کند.
Python
import pandas as pd

data = pd.DataFrame({"X": [1, 2, 3, 4, 5], "Y": [2, 4, 5, 4, 5]})

correlation = data["X"].corr(data["Y"])
print(correlation)
  • شاخص همبستگی متریک: قدرت رابطه بین دو متغیر، صرف نظر از جهت آن را اندازه گیری می کند.
Python
import scipy.stats as stats

correlation_coefficient = stats.spearmanr(data["X"], data["Y"])[0]
print(correlation_coefficient)

2. تجزیه و تحلیل رگرسیون خطی:

  • مدل رگرسیون خطی ساده: رابطه بین یک متغیر وابسته (Y) و یک متغیر مستقل (X) را مدل می کند.
Python
import statsmodels.api as sm

X = sm.add_constant(data["X"])
model = sm.OLS(data["Y"], X).fit()

print(model.summary())
  • رگرسیون چندگانه: رابطه بین یک متغیر وابسته (Y) و چندین متغیر مستقل (X1, X2, …) را مدل می کند.
Python
import sklearn.linear_model as lm

X = data[["X1", "X2"]]
model = lm.LinearRegression()
model.fit(X, data["Y"])

print(f"معادله رگرسیون: Y = {model.coef_[0]} * X1 + {model.coef_[1]} * X2 + {model.intercept_}")

3. تفسیر نتایج:

  • همبستگی: ضریب همبستگی بین -1 و 1 متغیر می شود. ضریب نزدیک به 0 نشان دهنده عدم وجود رابطه، ضریب مثبت نشان دهنده رابطه مثبت و ضریب منفی نشان دهنده رابطه منفی است.
  • رگرسیون خطی: ضرایب رگرسیون نشان می دهد که چگونه تغییرات در هر متغیر مستقل بر متغیر وابسته تأثیر می گذارد. p-value ها نشان می دهد که آیا ضرایب از نظر آماری معنی دار هستند یا خیر.

4. نکات:

  • از نمودارهای پراکندگی برای تجسم رابطه بین متغیرها استفاده کنید.
  • فرضیه های اساسی رگرسیون خطی را قبل از انجام تجزیه و تحلیل بررسی کنید.
  • از روش های مختلف رگرسیون برای مدل سازی روابط پیچیده تر بین متغیرها استفاده کنید.

با تسلط بر همبستگی و رگرسیون در Pandas و scikit-learn، می توانید بینش های ارزشمندی در مورد روابط بین متغیرها در داده های خود به دست آورید و مدل های پیش بینی کننده قوی بسازید.

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا