Pandas

حذف سطرها و ستون هایی حاوی مقادیر گمشده در Pandas

حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas

در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند ارائه می دهد.

۱. حذف سطرها:

  • استفاده از dropna(): این تابع DataFrame را با حذف سطرهایی که هر ستونی مقدار گمشده دارد، برمی گرداند.
Python
import pandas as pd

data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None], "C": [۷, ۸, ۹]})

print(data.dropna())
  • استفاده از axis="index": این آرگومان را به dropna() اضافه کنید تا فقط سطرهای حاوی مقادیر گمشده را حذف کنید.
Python
print(data.dropna(axis="index"))
  • استفاده از thresh: این آرگومان را به dropna() اضافه کنید تا فقط سطرهایی را حذف کنید که حداقل تعداد مشخصی از مقادیر گمشده دارند.
Python
print(data.dropna(thresh=۲))

۲. حذف ستون ها:

  • استفاده از dropna(axis="columns"): این تابع DataFrame را با حذف ستون هایی که هر سطری مقدار گمشده دارد، برمی گرداند.
Python
print(data.dropna(axis="columns"))
  • استفاده از how="any": این آرگومان را به dropna(axis="columns") اضافه کنید تا فقط ستون هایی را حذف کنید که حداقل یک مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="any"))
  • استفاده از how="all": این آرگومان را به dropna(axis="columns") اضافه کنید تا فقط ستون هایی را حذف کنید که همه سطرها مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="all"))

۳. حذف بر اساس شرایط:

  • می توانید از عبارات شرطی مانند if و else برای حذف سطرها و ستون هایی که شرایط خاصی را برای مقادیر گمشده برآورده می کنند استفاده کنید.
Python
def filter_data(df):
    # حذف سطرهایی که "A" و "B" هر دو مقدار گمشده دارند
    df.drop(df[(df["A"].isna()) & (df["B"].isna())].index, inplace=True)

    # حذف ستون "C" اگر بیش از ۵۰٪ مقادیر گمشده داشته باشد
    if df["C"].isnull().sum() / len(df) > ۰.۵:
        df.drop("C", axis=۱, inplace=True)

data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None], "C": [۷, ۸, ۹]})
filter_data(data.copy())

۴. نکات:

  • قبل از حذف سطرها و ستون ها، تأثیر آن بر حجم داده ها و تجزیه و تحلیل خود را در نظر بگیرید.
  • از روش های جایگزینی مقادیر گمشده به عنوان جایگزینی برای حذف در صورت امکان استفاده کنید.
  • برای بررسی صحت و کامل بودن داده های خود پس از حذف، DataFrame را به دقت بررسی کنید.

با تسلط بر روش های حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.

 

۵/۵ ( ۱ امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا