Pandas

تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas

تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas

در تجزیه و تحلیل داده، تجسم توزیع داده های شما برای درک ویژگی های کلیدی مانند تمرکز، پراکندگی، تقارن و مقادیر پرت ضروری است. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای ترسیم هیستوگرام ها و نمودارهای جعبه ای-شمعی جذاب و آموزنده ارائه می دهد.

۱. ترسیم هیستوگرام:

  • hist(): این تابع هیستوگرام را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
import pandas as pd
import matplotlib.pyplot as plt

data = pd.DataFrame({"A": [۱, ۲, ۳, ۴, ۵, ۶, ۷, ۸, ۹, ۱۰], "B": [۶, ۷, ۱۸, ۹, ۱۰, ۱۱, ۱۲, ۱۳, ۱۴, ۱۵]})

data.hist()
plt.show()
  • تنظیمات: می توانید با استفاده از آرگومان هایی مانند bins، range، color، alpha و title ظاهر هیستوگرام را سفارشی کنید.
Python
data["A"].hist(bins=۱۰, range=(۰, ۱۰), color="blue", alpha=۰.۷, title="توزیع A")
plt.show()

۲. ترسیم نمودار جعبه ای-شمعی:

  • boxplot(): این تابع نمودار جعبه ای-شمعی را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
data.boxplot()
plt.show()
  • تنظیمات: می توانید با استفاده از آرگومان هایی مانند vert، patch_artist، notch، medianprops و showfliers ظاهر نمودار جعبه ای-شمعی را سفارشی کنید.
Python
data.boxplot(vert=False, patch_artist=True, notch=۰, medianprops={"linewidth": ۲}, showfliers=False)
plt.show()

۳. تجسم توزیع ستون های خاص:

می توانید با مشخص کردن نام ستون ها در داخل پرانتز، هیستوگرام ها و نمودارهای جعبه ای-شمعی را برای ستون های خاص ترسیم کنید.

Python
data["A"].hist()
plt.show()

data["B"].boxplot()
plt.show()

۴. تفسیر نمودارها:

  • هیستوگرام ها: شکل هیستوگرام نشان دهنده توزیع داده ها است. قله نشان دهنده تمرکز داده ها است و پهنای هیستوگرام نشان دهنده پراکندگی داده ها است.
  • نمودارهای جعبه ای-شمعی: جعبه نشان دهنده ۲۵٪ میانی داده ها است. خط وسط میانه را نشان می دهد. سبیل ها ۵٪ و ۹۵٪ مقادیر را نشان می دهند. نقاط خارج از سبیل ها مقادیر پرت را نشان می دهند.

۵. نکات:

  • از هیستوگرام ها برای بررسی شکل توزیع داده ها و شناسایی مقادیر پرت استفاده کنید.
  • از نمودارهای جعبه ای-شمعی برای مقایسه توزیع داده ها بین ستون ها یا گروه ها استفاده کنید.
  • برای تجزیه و تحلیل عمیق تر، می توانید از نمودارهای تراکم، نمودارهای QQ و نمودارهای P-P برای تجسم توزیع داده ها استفاده کنید.

با تسلط بر تجسم توزیع داده ها با هیستوگرام ها و نمودارهای جعبه ای-شمعی در Pandas، می توانید بینش های بصری ارزشمندی در مورد داده های خود به دست آورید و الگوها و ناهنجاری ها را به سرعت شناسایی کنید.

۰/۵ ( ۰ امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا