علوم داده

محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas

محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas

در تجزیه و تحلیل داده، آمارهای خلاصه ای مانند میانگین، میانه و واریانس، بینش های اولیه مهمی در مورد توزیع و ویژگی های داده های شما ارائه می دهند. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای محاسبه سریع و کارآمد این آمارها برای شما فراهم می کند.

1. استفاده از توابع داخلی:

  • mean(): میانگین هر ستون عددی را در DataFrame محاسبه می کند.
Python
import pandas as pd

data = pd.DataFrame({"A": [1, 2, 3, 4, 5], "B": [6, 7, 8, 9, 10]})

print(data.mean())
  • median(): میانه هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.median())
  • var(): واریانس هر ستون عددی را در DataFrame محاسبه می کند (انحراف معیار به مربع).
Python
print(data.var())
  • std(): انحراف معیار هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.std())

2. محاسبه آمار برای ستون های خاص:

می توانید با مشخص کردن نام ستون ها در داخل پرانتز، آمار را برای ستون های خاص محاسبه کنید.

Python
print(data["A"].mean())
print(data["B"].median())
print(data["A"].var())
print(data["B"].std())

3. محاسبه آمار برای چندین ستون:

می توانید با استفاده از لیستی از نام ستون ها، آمار را برای چندین ستون به طور همزمان محاسبه کنید.

Python
print(data[["A", "B"]].mean())
print(data[["A", "B"]].median())
print(data[["A", "B"]].var())
print(data[["A", "B"]].std())

4. شامل یا حذف مقادیر گمشده:

  • skipna=True: به طور پیش فرض، توابع آمار مقادیر گمشده را نادیده می گیرند. برای محاسبه آمار با در نظر گرفتن مقادیر گمشده، skipna=False را تنظیم کنید.
Python
print(data["A"].mean(skipna=False))
  • dropna(): می توانید قبل از محاسبه آمار، از dropna() برای حذف سطرهایی با مقادیر گمشده استفاده کنید.
Python
print(data.dropna().mean())

5. قالب بندی خروجی:

می توانید از روش round() برای گرد کردن مقادیر به تعداد اعشار دلخواه استفاده کنید.

Python
print(data["A"].mean().round(2))

6. نکات:

  • از آمارهای خلاصه ای برای درک توزیع مرکزی، پراکندگی و مقادیر پرت در داده های خود استفاده کنید.
  • هنگام مقایسه آمار بین ستون ها یا مجموعه داده ها، به واحدهای اندازه گیری و مقیاس داده ها توجه کنید.
  • برای تجزیه و تحلیل عمیق تر، می توانید از نمودارها و گراف ها برای تجسم توزیع داده ها و شناسایی الگوها استفاده کنید.

با تسلط بر محاسبه آمارهای خلاصه ای در Pandas، می توانید به سرعت و به طور موثر بینش های ارزشمندی از داده های خود به دست آورید.

 

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا