علوم داده
تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas
تجسم توزیع داده ها با هیستوگرام و نمودارهای جعبه ای-شمعی در Pandas
در تجزیه و تحلیل داده، تجسم توزیع داده های شما برای درک ویژگی های کلیدی مانند تمرکز، پراکندگی، تقارن و مقادیر پرت ضروری است. Pandas به عنوان یک کتابخانه قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، ابزارهای مختلفی برای ترسیم هیستوگرام ها و نمودارهای جعبه ای-شمعی جذاب و آموزنده ارائه می دهد.
1. ترسیم هیستوگرام:
hist()
: این تابع هیستوگرام را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
import pandas as pd
import matplotlib.pyplot as plt
data = pd.DataFrame({"A": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10], "B": [6, 7, 18, 9, 10, 11, 12, 13, 14, 15]})
data.hist()
plt.show()
- تنظیمات: می توانید با استفاده از آرگومان هایی مانند
bins
،range
،color
،alpha
وtitle
ظاهر هیستوگرام را سفارشی کنید.
Python
data["A"].hist(bins=10, range=(0, 10), color="blue", alpha=0.7, title="توزیع A")
plt.show()
2. ترسیم نمودار جعبه ای-شمعی:
boxplot()
: این تابع نمودار جعبه ای-شمعی را برای هر ستون عددی در DataFrame ترسیم می کند.
Python
data.boxplot()
plt.show()
- تنظیمات: می توانید با استفاده از آرگومان هایی مانند
vert
،patch_artist
،notch
،medianprops
وshowfliers
ظاهر نمودار جعبه ای-شمعی را سفارشی کنید.
Python
data.boxplot(vert=False, patch_artist=True, notch=0, medianprops={"linewidth": 2}, showfliers=False)
plt.show()
3. تجسم توزیع ستون های خاص:
می توانید با مشخص کردن نام ستون ها در داخل پرانتز، هیستوگرام ها و نمودارهای جعبه ای-شمعی را برای ستون های خاص ترسیم کنید.
Python
data["A"].hist()
plt.show()
data["B"].boxplot()
plt.show()
4. تفسیر نمودارها:
- هیستوگرام ها: شکل هیستوگرام نشان دهنده توزیع داده ها است. قله نشان دهنده تمرکز داده ها است و پهنای هیستوگرام نشان دهنده پراکندگی داده ها است.
- نمودارهای جعبه ای-شمعی: جعبه نشان دهنده 25٪ میانی داده ها است. خط وسط میانه را نشان می دهد. سبیل ها 5٪ و 95٪ مقادیر را نشان می دهند. نقاط خارج از سبیل ها مقادیر پرت را نشان می دهند.
5. نکات:
- از هیستوگرام ها برای بررسی شکل توزیع داده ها و شناسایی مقادیر پرت استفاده کنید.
- از نمودارهای جعبه ای-شمعی برای مقایسه توزیع داده ها بین ستون ها یا گروه ها استفاده کنید.
- برای تجزیه و تحلیل عمیق تر، می توانید از نمودارهای تراکم، نمودارهای QQ و نمودارهای P-P برای تجسم توزیع داده ها استفاده کنید.
با تسلط بر تجسم توزیع داده ها با هیستوگرام ها و نمودارهای جعبه ای-شمعی در Pandas، می توانید بینش های بصری ارزشمندی در مورد داده های خود به دست آورید و الگوها و ناهنجاری ها را به سرعت شناسایی کنید.