علوم داده
محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas
محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas
در تجزیه و تحلیل داده، آمارهای خلاصه ای مانند میانگین، میانه و واریانس، بینش های اولیه مهمی در مورد توزیع و ویژگی های داده های شما ارائه می دهند. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای محاسبه سریع و کارآمد این آمارها برای شما فراهم می کند.
1. استفاده از توابع داخلی:
mean()
: میانگین هر ستون عددی را در DataFrame محاسبه می کند.
Python
import pandas as pd
data = pd.DataFrame({"A": [1, 2, 3, 4, 5], "B": [6, 7, 8, 9, 10]})
print(data.mean())
median()
: میانه هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.median())
var()
: واریانس هر ستون عددی را در DataFrame محاسبه می کند (انحراف معیار به مربع).
Python
print(data.var())
std()
: انحراف معیار هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.std())
2. محاسبه آمار برای ستون های خاص:
می توانید با مشخص کردن نام ستون ها در داخل پرانتز، آمار را برای ستون های خاص محاسبه کنید.
Python
print(data["A"].mean())
print(data["B"].median())
print(data["A"].var())
print(data["B"].std())
3. محاسبه آمار برای چندین ستون:
می توانید با استفاده از لیستی از نام ستون ها، آمار را برای چندین ستون به طور همزمان محاسبه کنید.
Python
print(data[["A", "B"]].mean())
print(data[["A", "B"]].median())
print(data[["A", "B"]].var())
print(data[["A", "B"]].std())
4. شامل یا حذف مقادیر گمشده:
skipna=True
: به طور پیش فرض، توابع آمار مقادیر گمشده را نادیده می گیرند. برای محاسبه آمار با در نظر گرفتن مقادیر گمشده،skipna=False
را تنظیم کنید.
Python
print(data["A"].mean(skipna=False))
dropna()
: می توانید قبل از محاسبه آمار، ازdropna()
برای حذف سطرهایی با مقادیر گمشده استفاده کنید.
Python
print(data.dropna().mean())
5. قالب بندی خروجی:
می توانید از روش round()
برای گرد کردن مقادیر به تعداد اعشار دلخواه استفاده کنید.
Python
print(data["A"].mean().round(2))
6. نکات:
- از آمارهای خلاصه ای برای درک توزیع مرکزی، پراکندگی و مقادیر پرت در داده های خود استفاده کنید.
- هنگام مقایسه آمار بین ستون ها یا مجموعه داده ها، به واحدهای اندازه گیری و مقیاس داده ها توجه کنید.
- برای تجزیه و تحلیل عمیق تر، می توانید از نمودارها و گراف ها برای تجسم توزیع داده ها و شناسایی الگوها استفاده کنید.
با تسلط بر محاسبه آمارهای خلاصه ای در Pandas، می توانید به سرعت و به طور موثر بینش های ارزشمندی از داده های خود به دست آورید.