علوم داده

محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas

محاسبه آمارهای خلاصه ای (میانگین، میانه، واریانس) در Pandas

در تجزیه و تحلیل داده، آمارهای خلاصه ای مانند میانگین، میانه و واریانس، بینش های اولیه مهمی در مورد توزیع و ویژگی های داده های شما ارائه می دهند. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای محاسبه سریع و کارآمد این آمارها برای شما فراهم می کند.

1. استفاده از توابع داخلی:

  • mean(): میانگین هر ستون عددی را در DataFrame محاسبه می کند.
Python
import pandas as pd

data = pd.DataFrame({"A": [1, 2, 3, 4, 5], "B": [6, 7, 8, 9, 10]})

print(data.mean())
  • median(): میانه هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.median())
  • var(): واریانس هر ستون عددی را در DataFrame محاسبه می کند (انحراف معیار به مربع).
Python
print(data.var())
  • std(): انحراف معیار هر ستون عددی را در DataFrame محاسبه می کند.
Python
print(data.std())

2. محاسبه آمار برای ستون های خاص:

می توانید با مشخص کردن نام ستون ها در داخل پرانتز، آمار را برای ستون های خاص محاسبه کنید.

Python
print(data["A"].mean())
print(data["B"].median())
print(data["A"].var())
print(data["B"].std())

3. محاسبه آمار برای چندین ستون:

می توانید با استفاده از لیستی از نام ستون ها، آمار را برای چندین ستون به طور همزمان محاسبه کنید.

Python
print(data[["A", "B"]].mean())
print(data[["A", "B"]].median())
print(data[["A", "B"]].var())
print(data[["A", "B"]].std())

4. شامل یا حذف مقادیر گمشده:

  • skipna=True: به طور پیش فرض، توابع آمار مقادیر گمشده را نادیده می گیرند. برای محاسبه آمار با در نظر گرفتن مقادیر گمشده، skipna=False را تنظیم کنید.
Python
print(data["A"].mean(skipna=False))
  • dropna(): می توانید قبل از محاسبه آمار، از dropna() برای حذف سطرهایی با مقادیر گمشده استفاده کنید.
Python
print(data.dropna().mean())

5. قالب بندی خروجی:

می توانید از روش round() برای گرد کردن مقادیر به تعداد اعشار دلخواه استفاده کنید.

Python
print(data["A"].mean().round(2))

6. نکات:

  • از آمارهای خلاصه ای برای درک توزیع مرکزی، پراکندگی و مقادیر پرت در داده های خود استفاده کنید.
  • هنگام مقایسه آمار بین ستون ها یا مجموعه داده ها، به واحدهای اندازه گیری و مقیاس داده ها توجه کنید.
  • برای تجزیه و تحلیل عمیق تر، می توانید از نمودارها و گراف ها برای تجسم توزیع داده ها و شناسایی الگوها استفاده کنید.

با تسلط بر محاسبه آمارهای خلاصه ای در Pandas، می توانید به سرعت و به طور موثر بینش های ارزشمندی از داده های خود به دست آورید.

 

نمایش بیشتر

نوشته‌های مشابه

۵ دیدگاه

  1. تابع mean() در کتابخانه Pandas، ابزاری قدرتمند برای محاسبه میانگین مقادیر در یک سری داده یا DataFrame است.

    برخی از مزایای استفاده از این تابع عبارتند از:

    کاربرد آسان: تابع mean() به سادگی قابل استفاده است و نیاز به دانش برنامه‌نویسی پیچیده ندارد.

    انعطاف پذیری: این تابع می تواند برای محاسبه میانگین انواع مختلف داده ها، از جمله اعداد صحیح، اعداد اعشاری، رشته ها و مقادیر زمانی استفاده شود.

    قابلیت گروه بندی: می توان از mean() برای محاسبه میانگین مقادیر در گروه های مختلف داده ها، بر اساس ستون ها یا شاخص ها استفاده کرد.

    سازگاری: mean() به طور یکپارچه با سایر توابع Pandas مانند groupby(), filter() و select() کار می کند و به شما امکان می دهد تجزیه و تحلیل های پیچیده ای را به راحتی انجام دهید.

    سرعت: mean() به طور بهینه سازی شده و برای کار با مجموعه داده های بزرگ سریع و کارآمد است.

    کاربردهای متنوع: از mean() می توان برای محاسبه طیف وسیعی از آمارهای توصیفی مانند میانگین وزنی، میانگین هندسی و میانگین هارمونیک استفاده کرد.

  2. علاوه بر مزایای ذکر شده، mean() همچنین دارای معایبی نیز هست:

    عدم توجه به توزیع داده ها: mean() فقط می تواند میانگین را محاسبه کند و اطلاعاتی در مورد توزیع داده ها، مانند انحراف معیار یا چولگی، ارائه نمی دهد.
    حساسیت به مقادیر پرت: mean() می تواند توسط مقادیر پرت (outliers) موجود در داده ها به شدت تحت تاثیر قرار گیرد.

    در نهایت، انتخاب تابع مناسب برای تجزیه و تحلیل داده ها به نیازها و نوع داده های شما بستگی دارد.

  3. تابع median() در Pandas برای محاسبه میانه یک مجموعه داده استفاده می شود. میانه، مقداری است که نیمی از مقادیر در مجموعه داده کوچک‌تر از آن و نیمی دیگر بزرگ‌تر از آن هستند.

    استفاده از تابع median() در Pandas مزایای متعددی دارد، از جمله:

    مقاومت در برابر مقادیر پرت: میانه در برابر مقادیر پرت ( outliers) که در دسته‌بندی‌های آماری سنتی مانند میانگین اختلال ایجاد می‌کنند، مقاوم است. به این معنی که تغییر جزئی در مقادیر بزرگ تاثیر زیادی بر میانه نخواهد داشت.
    سادگی تفسیر: میانه به راحتی قابل تفسیر است، به خصوص برای مجموعه داده‌هایی که توزیع نامتقارن دارند.
    کاربرد در رتبه‌بندی: میانه برای رتبه‌بندی مقادیر در یک مجموعه داده مفید است.
    محاسبه آسان: محاسبه میانه با استفاده از تابع median() در Pandas بسیار آسان است.

    در مقایسه با میانگین، میانه می‌تواند در شرایط زیر انتخاب مناسب‌تری باشد:

    وجود مقادیر پرت: اگر مجموعه داده شما شامل مقادیری است که به طور معنی‌داری از سایر مقادیر انحراف دارند، استفاده از میانه به جای میانگین می‌تواند تصویر دقیق‌تری از مرکز مجموعه داده ارائه دهد.
    توزیع نامتقارن: اگر مجموعه داده شما توزیع نامتقارن دارد، میانه می‌تواند معیار بهتری برای مرکز مجموعه داده نسبت به میانگین باشد.
    در نهایت، انتخاب بین میانگین و میانه به نوع داده و اهداف تحلیل شما بستگی دارد.

  4. تابع var() در کتابخانه pandas

    ، ابزاری قدرتمند برای محاسبه واریانس مجموعه داده‌ها است. این تابع مزایای متعددی را ارائه می‌دهد که آن را به یک ابزار ضروری برای تحلیل داده‌ها تبدیل می‌کند:

    ۱. محاسبه آسان واریانس:

    تابع var() به طور مستقیم واریانس هر ستون یا ردیف در یک DataFrame را محاسبه می‌کند. این امر به شما امکان می‌دهد به سرعت و به آسانی پراکندگی داده‌ها را در هر بعد از مجموعه داده خود ارزیابی کنید.

    ۲. انعطاف‌پذیری:

    تابع var() به شما امکان می‌دهد واریانس را در امتداد محورهای مختلف DataFrame (ستون‌ها، ردیف‌ها یا هر دو) محاسبه کنید. این انعطاف‌پذیری به شما امکان می‌دهد تا به طور جامع پراکندگی داده‌ها را در جهات مختلف تجزیه و تحلیل کنید.

    ۳. مدیریت مقادیر گمشده:

    تابع var() به طور پیش فرض مقادیر گمشده (NA) را در محاسبه واریانس نادیده می‌گیرد. این امر تضمین می‌کند که نتایج شما تحت تأثیر داده‌های ناقص قرار نمی‌گیرند.

    ۴. سازگاری با دیگر توابع pandas:

    تابع var() به طور یکپارچه با سایر توابع pandas مانند mean() و std() کار می‌کند، که به شما امکان می‌دهد به طور کارآمد و روان تحلیل‌های آماری پیچیده‌ای را انجام دهید.

    ۵. خوانایی و وضوح:

    تابع var() از سینتکس ساده و قابل فهمی استفاده می‌کند که تفسیر نتایج را آسان می‌کند.

    ۶. بهینه‌سازی:

    تابع var() برای کارایی بهینه شده است و محاسبات واریانس را به سرعت و به طور کارآمد انجام می‌دهد، حتی برای مجموعه داده‌های بزرگ.

    ۷. کاربردهای متنوع:

    تابع var() در طیف گسترده‌ای از وظایف تحلیل داده، از جمله شناسایی ناهنجاری‌ها، ارزیابی کیفیت داده و مدل‌سازی آماری، کاربرد دارد.

    در مجموع، تابع var() یک ابزار ضروری برای هر تحلیلگر داده‌ای است که از pandas استفاده می‌کند. سادگی، انعطاف‌پذیری و کارایی آن، آن را به ابزاری ایده‌آل برای محاسبه واریانس و تجزیه و تحلیل پراکندگی داده‌ها در مجموعه داده‌های مختلف تبدیل می‌کند.

  5. تابع std() در pandas مزایای متعددی دارد که آن را به ابزاری ارزشمند برای تجزیه و تحلیل داده ها تبدیل می کند.

    برخی از مزایای کلیدی عبارتند از:

    محاسبه آسان:

    تابع std() به طور مستقیم در کتابخانه pandas موجود است و استفاده از آن آسان است.

    کاربردهای متنوع:

    می توان از آن برای محاسبه انحراف معیار برای مجموعه داده های مختلف، شامل سری ها، قاب های داده، ستون ها و ردیف ها استفاده کرد.

    قابلیت سفارشی سازی:

    می توانید با استفاده از آرگومان های مختلف مانند axis، skipna و ddof محاسبات انحراف معیار را سفارشی کنید.

    سرعت و کارایی:

    تابع std() بهینه شده است و می تواند انحراف معیار را برای مجموعه داده های بزرگ به سرعت محاسبه کند.

    سازگاری با NumPy:

    نتایج تابع std() با تابع std() در NumPy سازگار است، که به شما امکان می دهد به راحتی بین کتابخانه های مختلف جابجا شوید.

    کاربرد در تجزیه و تحلیل داده ها: انحراف معیار یک معیار آماری مهم است که برای ارزیابی پراکندگی داده ها استفاده می شود.
    تابع std() می تواند برای شناسایی ناهنجاری ها، مقایسه مجموعه داده های مختلف و ایجاد مدل های آماری استفاده شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا