علوم داده

تجزیه و تحلیل توصیفی با Pandas

تجزیه و تحلیل توصیفی با Pandas

Pandas به عنوان یک کتابخانه قدرتمند برای تجزیه و تحلیل داده ها، طیف گسترده ای از ابزارها را برای انجام تجزیه و تحلیل توصیفی بر روی مجموعه داده های شما ارائه می دهد. این به شما امکان می دهد آمار کلیدی را محاسبه کنید، توزیع داده ها را بررسی کنید و بینش های اولیه را در مورد داده های خود به دست آورید.

1. اطلاعات اولیه:

  • info(): اطلاعات کلی در مورد DataFrame از جمله تعداد سطرها، ستون ها، انواع داده ها و حافظه استفاده شده را نمایش می دهد.
Python
import pandas as pd

data = pd.DataFrame({"A": [1, 2, 3], "B": ["a", "b", "c"], "C": [True, False, True]})

print(data.info())
  • describe(): آمار توصیفی برای هر ستون عددی از جمله میانگین، انحراف معیار، حداقل، حداکثر، 25٪، 50٪ و 75٪ را خلاصه می کند.
Python
print(data.describe())

2. بررسی مقادیر گمشده:

  • isnull(): Series یا DataFrame را برمی گرداند که نشان می دهد کدام مقادیر NaN (Not a Number) یا معادل آن در نوع داده شما هستند.
Python
print(data.isnull())
  • count(): تعداد مقادیر غیر گمشده در هر ستون را محاسبه کنید.
Python
print(data.count())

3. بررسی توزیع داده ها:

  • hist(): هیستوگرام را برای هر ستون عددی ترسیم می کند تا توزیع داده ها را به صورت بصری نشان دهد.
Python
data.hist()
plt.show()
  • boxplot(): نمودار جعبه را برای هر ستون عددی ترسیم می کند تا چارک ها، میانه و مقادیر پرت را نشان دهد.
Python
data.boxplot()
plt.show()

4. محاسبه آمار کلیدی:

  • mean(): میانگین هر ستون عددی را محاسبه می کند.
Python
print(data.mean())
  • median(): میانه هر ستون عددی را محاسبه می کند.
Python
print(data.median())
  • mode(): حالت (رایج ترین مقدار) را برای هر ستون محاسبه می کند.
Python
print(data.mode())
  • std(): انحراف معیار هر ستون عددی را محاسبه می کند.
Python
print(data.std())
  • var(): واریانس هر ستون عددی را محاسبه می کند (انحراف معیار به مربع).
Python
print(data.var())

5. تجزیه و تحلیل متنی:

  • value_counts(): تعداد دفعات ظهور هر مقدار منحصر به فرد در ستون های رشته ای را شمارش می کند.
Python
print(data["B"].value_counts())
  • nunique(): تعداد مقادیر منحصر به فرد را در هر ستون محاسبه می کند.
Python
print(data.nunique())

6. نکات:

  • از نمودارها و گراف ها برای تجسم داده ها و ارائه بینش های خود استفاده کنید.
  • برای تجزیه و تحلیل عمیق تر، می توانید از توابع و روش های Pandas مانند گروه بندی، مرتب سازی و فیلتر کردن استفاده کنید.
  • همیشه قبل از انجام هر گونه تجزیه و تحلیل، داده های خود را به دقت بررسی کنید تا از صحت و کامل بودن آنها اطمینان حاصل کنید.

با تسلط بر طیف گسترده ای از ابزارهای تجزیه و تحلیل توصیفی در Pandas، می توانید به طور موثر داده های خود را برای به دست آوردن بینش های ارزشمند و آگاهانه آماده کنید.

 

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا