علوم داده

تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas

تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas

در تجزیه و تحلیل داده، تجسم توزیع داده های شما برای درک ویژگی های کلیدی مانند تمرکز، پراکندگی، تقارن و مقادیر پرت ضروری است. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای ترسیم هیستوگرام ها و نمودارهای جعبه ای-شمعی جذاب و آموزنده ارائه می دهد.

1. ترسیم هیستوگرام:

  • hist(): این تابع هیستوگرام را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
import pandas as pd
import matplotlib.pyplot as plt

data = pd.DataFrame({"A": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "B": [6, 7, 18, 9, 10, 11, 12, 13, 14, 15]})

data.hist()
plt.show()
  • تنظیمات: می توانید با استفاده از آرگومان هایی مانند bins، range، color، alpha و title ظاهر هیستوگرام را سفارشی کنید.
Python
data["A"].hist(bins=10, range=(0, 10), color="blue", alpha=0.7, title="توزیع A")
plt.show()

2. ترسیم نمودار جعبه ای-شمعی:

  • boxplot(): این تابع نمودار جعبه ای-شمعی را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
data.boxplot()
plt.show()
  • تنظیمات: می توانید با استفاده از آرگومان هایی مانند vert، patch_artist، notch، medianprops و showfliers ظاهر نمودار جعبه ای-شمعی را سفارشی کنید.
Python
data.boxplot(vert=False, patch_artist=True, notch=0, medianprops={"linewidth": 2}, showfliers=False)
plt.show()

3. تجسم توزیع ستون های خاص:

می توانید با مشخص کردن نام ستون ها در داخل پرانتز، هیستوگرام ها و نمودارهای جعبه ای-شمعی را برای ستون های خاص ترسیم کنید.

Python
data["A"].hist()
plt.show()

data["B"].boxplot()
plt.show()

4. تفسیر نمودارها:

  • هیستوگرام ها: شکل هیستوگرام نشان دهنده توزیع داده ها است. قله نشان دهنده تمرکز داده ها است و پهنای هیستوگرام نشان دهنده پراکندگی داده ها است.
  • نمودارهای جعبه ای-شمعی: جعبه نشان دهنده 25٪ میانی داده ها است. خط وسط میانه را نشان می دهد. سبیل ها 5٪ و 95٪ مقادیر را نشان می دهند. نقاط خارج از سبیل ها مقادیر پرت را نشان می دهند.

5. نکات:

  • از هیستوگرام ها برای بررسی شکل توزیع داده ها و شناسایی مقادیر پرت استفاده کنید.
  • از نمودارهای جعبه ای-شمعی برای مقایسه توزیع داده ها بین ستون ها یا گروه ها استفاده کنید.
  • برای تجزیه و تحلیل عمیق تر، می توانید از نمودارهای تراکم، نمودارهای QQ و نمودارهای P-P برای تجسم توزیع داده ها استفاده کنید.

با تسلط بر تجسم توزیع داده ها با هیستوگرام ها و نمودارهای جعبه ای-شمعی در Pandas، می توانید بینش های بصری ارزشمندی در مورد داده های خود به دست آورید و الگوها و ناهنجاری ها را به سرعت شناسایی کنید.

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا