تجزیه و تحلیل توصیفی با Pandas
Pandas به عنوان یک کتابخانه قدرتمند برای تجزیه و تحلیل داده ها، طیف گسترده ای از ابزارها را برای انجام تجزیه و تحلیل توصیفی بر روی مجموعه داده های شما ارائه می دهد. این به شما امکان می دهد آمار کلیدی را محاسبه کنید، توزیع داده ها را بررسی کنید و بینش های اولیه را در مورد داده های خود به دست آورید.
۱. اطلاعات اولیه:
info()
: اطلاعات کلی در مورد DataFrame از جمله تعداد سطرها، ستون ها، انواع داده ها و حافظه استفاده شده را نمایش می دهد.
Python
import pandas as pd
data = pd.DataFrame({"A": [۱, ۲, ۳], "B": ["a", "b", "c"], "C": [True, False, True]})
print(data.info())
describe()
: آمار توصیفی برای هر ستون عددی از جمله میانگین، انحراف معیار، حداقل، حداکثر، ۲۵٪، ۵۰٪ و ۷۵٪ را خلاصه می کند.
Python
print(data.describe())
۲. بررسی مقادیر گمشده:
isnull()
: Series یا DataFrame را برمی گرداند که نشان می دهد کدام مقادیرNaN
(Not a Number) یا معادل آن در نوع داده شما هستند.
Python
print(data.isnull())
count()
: تعداد مقادیر غیر گمشده در هر ستون را محاسبه کنید.
Python
print(data.count())
۳. بررسی توزیع داده ها:
hist()
: هیستوگرام را برای هر ستون عددی ترسیم می کند تا توزیع داده ها را به صورت بصری نشان دهد.
Python
data.hist()
plt.show()
boxplot()
: نمودار جعبه را برای هر ستون عددی ترسیم می کند تا چارک ها، میانه و مقادیر پرت را نشان دهد.
Python
data.boxplot()
plt.show()
۴. محاسبه آمار کلیدی:
mean()
: میانگین هر ستون عددی را محاسبه می کند.
Python
print(data.mean())
median()
: میانه هر ستون عددی را محاسبه می کند.
Python
print(data.median())
mode()
: حالت (رایج ترین مقدار) را برای هر ستون محاسبه می کند.
Python
print(data.mode())
std()
: انحراف معیار هر ستون عددی را محاسبه می کند.
Python
print(data.std())
var()
: واریانس هر ستون عددی را محاسبه می کند (انحراف معیار به مربع).
Python
print(data.var())
۵. تجزیه و تحلیل متنی:
value_counts()
: تعداد دفعات ظهور هر مقدار منحصر به فرد در ستون های رشته ای را شمارش می کند.
Python
print(data["B"].value_counts())
nunique()
: تعداد مقادیر منحصر به فرد را در هر ستون محاسبه می کند.
Python
print(data.nunique())
۶. نکات:
- از نمودارها و گراف ها برای تجسم داده ها و ارائه بینش های خود استفاده کنید.
- برای تجزیه و تحلیل عمیق تر، می توانید از توابع و روش های Pandas مانند گروه بندی، مرتب سازی و فیلتر کردن استفاده کنید.
- همیشه قبل از انجام هر گونه تجزیه و تحلیل، داده های خود را به دقت بررسی کنید تا از صحت و کامل بودن آنها اطمینان حاصل کنید.
با تسلط بر طیف گسترده ای از ابزارهای تجزیه و تحلیل توصیفی در Pandas، می توانید به طور موثر داده های خود را برای به دست آوردن بینش های ارزشمند و آگاهانه آماده کنید.