تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas
در تجزیه و تحلیل داده، تجسم توزیع داده های شما برای درک ویژگی های کلیدی مانند تمرکز، پراکندگی، تقارن و مقادیر پرت ضروری است. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای ترسیم هیستوگرام ها و نمودارهای جعبه ای-شمعی جذاب و آموزنده ارائه می دهد.
۱. ترسیم هیستوگرام:
hist()
: این تابع هیستوگرام را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
import pandas as pd
import matplotlib.pyplot as plt
data = pd.DataFrame({"A": [۱, ۲, ۳, ۴, ۵, ۶, ۷, ۸, ۹, ۱۰], "B": [۶, ۷, ۱۸, ۹, ۱۰, ۱۱, ۱۲, ۱۳, ۱۴, ۱۵]})
data.hist()
plt.show()
- تنظیمات: می توانید با استفاده از آرگومان هایی مانند
bins
،range
،color
،alpha
وtitle
ظاهر هیستوگرام را سفارشی کنید.
Python
data["A"].hist(bins=۱۰, range=(۰, ۱۰), color="blue", alpha=۰.۷, title="توزیع A")
plt.show()
۲. ترسیم نمودار جعبه ای-شمعی:
boxplot()
: این تابع نمودار جعبه ای-شمعی را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
data.boxplot()
plt.show()
- تنظیمات: می توانید با استفاده از آرگومان هایی مانند
vert
،patch_artist
،notch
،medianprops
وshowfliers
ظاهر نمودار جعبه ای-شمعی را سفارشی کنید.
Python
data.boxplot(vert=False, patch_artist=True, notch=۰, medianprops={"linewidth": ۲}, showfliers=False)
plt.show()
۳. تجسم توزیع ستون های خاص:
می توانید با مشخص کردن نام ستون ها در داخل پرانتز، هیستوگرام ها و نمودارهای جعبه ای-شمعی را برای ستون های خاص ترسیم کنید.
Python
data["A"].hist()
plt.show()
data["B"].boxplot()
plt.show()
۴. تفسیر نمودارها:
- هیستوگرام ها: شکل هیستوگرام نشان دهنده توزیع داده ها است. قله نشان دهنده تمرکز داده ها است و پهنای هیستوگرام نشان دهنده پراکندگی داده ها است.
- نمودارهای جعبه ای-شمعی: جعبه نشان دهنده ۲۵٪ میانی داده ها است. خط وسط میانه را نشان می دهد. سبیل ها ۵٪ و ۹۵٪ مقادیر را نشان می دهند. نقاط خارج از سبیل ها مقادیر پرت را نشان می دهند.
۵. نکات:
- از هیستوگرام ها برای بررسی شکل توزیع داده ها و شناسایی مقادیر پرت استفاده کنید.
- از نمودارهای جعبه ای-شمعی برای مقایسه توزیع داده ها بین ستون ها یا گروه ها استفاده کنید.
- برای تجزیه و تحلیل عمیق تر، می توانید از نمودارهای تراکم، نمودارهای QQ و نمودارهای P-P برای تجسم توزیع داده ها استفاده کنید.
با تسلط بر تجسم توزیع داده ها با هیستوگرام ها و نمودارهای جعبه ای-شمعی در Pandas، می توانید بینش های بصری ارزشمندی در مورد داده های خود به دست آورید و الگوها و ناهنجاری ها را به سرعت شناسایی کنید.