Pandas

شناسایی مقادیر گمشده در Pandas

شناسایی مقادیر گمشده در Pandas

مقدمه:

در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای شناسایی و مدیریت مقادیر گمشده ارائه می دهد.

۱. روش های شناسایی:

  • استفاده از isnull(): این تابع یک Series یا DataFrame را برمی گرداند که نشان می دهد کدام مقادیر NaN (Not a Number) یا معادل آن در نوع داده شما هستند.
Python
import pandas as pd

data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None]})

print(data.isnull())
  • استفاده از isna(): این تابع مشابه isnull() است، اما فقط برای Series کار می کند.
Python
print(data["A"].isna())
  • بررسی count(): تعداد مقادیر غیر گمشده در هر ستون را با استفاده از count() محاسبه کنید و آن را با طول DataFrame مقایسه کنید.
Python
print(data.count())
  • بررسی describe(): خلاصه آماری از جمله تعداد مقادیر گمشده برای هر ستون را با استفاده از describe() مشاهده کنید.
Python
print(data.describe())

۲. مدیریت مقادیر گمشده:

  • حذف سطرها یا ستون های حاوی مقادیر گمشده:
Python
# حذف سطرهایی که هر ستونی مقدار گمشده دارد
data.dropna(inplace=True)

# حذف ستون هایی که هر سطری مقدار گمشده دارد
data.dropna(axis="columns", inplace=True)
  • جایگزینی مقادیر گمشده با مقادیر ثابت:
Python
# جایگزینی مقادیر گمشده با ۰
data.fillna(۰, inplace=True)

# جایگزینی مقادیر گمشده با میانگین ستون
data.fillna(data.mean(), inplace=True)
  • جایگزینی مقادیر گمشده با مقادیر خاص بر اساس شرایط:
Python
data["A"].fillna(data["A"].mean() if data["B"].notna() else ۰, inplace=True)
  • استفاده از تکنیک های پیشرفته:

    • اتصال: پیش بینی مقادیر گمشده با استفاده از الگوها و داده های موجود
    • حذف موارد: حذف سطرها یا ستون هایی که مقادیر گمشده زیادی دارند

۳. نکات:

  • قبل از انجام تجزیه و تحلیل، مقادیر گمشده را شناسایی و مدیریت کنید.
  • روش مناسب برای مدیریت مقادیر گمشده به نوع داده ها، الگوی گمشده و هدف تجزیه و تحلیل شما بستگی دارد.
  • از مستندات Pandas برای اطلاعات بیشتر در مورد توابع و روش های مربوط به مقادیر گمشده استفاده کنید.

با تسلط بر روش های شناسایی و مدیریت مقادیر گمشده در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.

 

۰/۵ ( ۰ امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا