شناسایی مقادیر گمشده در Pandas
مقدمه:
در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای شناسایی و مدیریت مقادیر گمشده ارائه می دهد.
۱. روش های شناسایی:
- استفاده از
isnull()
: این تابع یک Series یا DataFrame را برمی گرداند که نشان می دهد کدام مقادیرNaN
(Not a Number) یا معادل آن در نوع داده شما هستند.
Python
import pandas as pd
data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None]})
print(data.isnull())
- استفاده از
isna()
: این تابع مشابهisnull()
است، اما فقط برای Series کار می کند.
Python
print(data["A"].isna())
- بررسی
count()
: تعداد مقادیر غیر گمشده در هر ستون را با استفاده ازcount()
محاسبه کنید و آن را با طول DataFrame مقایسه کنید.
Python
print(data.count())
- بررسی
describe()
: خلاصه آماری از جمله تعداد مقادیر گمشده برای هر ستون را با استفاده ازdescribe()
مشاهده کنید.
Python
print(data.describe())
۲. مدیریت مقادیر گمشده:
- حذف سطرها یا ستون های حاوی مقادیر گمشده:
Python
# حذف سطرهایی که هر ستونی مقدار گمشده دارد
data.dropna(inplace=True)
# حذف ستون هایی که هر سطری مقدار گمشده دارد
data.dropna(axis="columns", inplace=True)
- جایگزینی مقادیر گمشده با مقادیر ثابت:
Python
# جایگزینی مقادیر گمشده با ۰
data.fillna(۰, inplace=True)
# جایگزینی مقادیر گمشده با میانگین ستون
data.fillna(data.mean(), inplace=True)
- جایگزینی مقادیر گمشده با مقادیر خاص بر اساس شرایط:
Python
data["A"].fillna(data["A"].mean() if data["B"].notna() else ۰, inplace=True)
-
استفاده از تکنیک های پیشرفته:
- اتصال: پیش بینی مقادیر گمشده با استفاده از الگوها و داده های موجود
- حذف موارد: حذف سطرها یا ستون هایی که مقادیر گمشده زیادی دارند
۳. نکات:
- قبل از انجام تجزیه و تحلیل، مقادیر گمشده را شناسایی و مدیریت کنید.
- روش مناسب برای مدیریت مقادیر گمشده به نوع داده ها، الگوی گمشده و هدف تجزیه و تحلیل شما بستگی دارد.
- از مستندات Pandas برای اطلاعات بیشتر در مورد توابع و روش های مربوط به مقادیر گمشده استفاده کنید.
با تسلط بر روش های شناسایی و مدیریت مقادیر گمشده در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.