علوم داده

حذف سطرها و ستون هایی حاوی مقادیر گمشده در Pandas

حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas

در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند ارائه می دهد.

1. حذف سطرها:

  • استفاده از dropna(): این تابع DataFrame را با حذف سطرهایی که هر ستونی مقدار گمشده دارد، برمی گرداند.
Python
import pandas as pd

data = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, 5, None], "C": [7, 8, 9]})

print(data.dropna())
  • استفاده از axis="index": این آرگومان را به dropna() اضافه کنید تا فقط سطرهای حاوی مقادیر گمشده را حذف کنید.
Python
print(data.dropna(axis="index"))
  • استفاده از thresh: این آرگومان را به dropna() اضافه کنید تا فقط سطرهایی را حذف کنید که حداقل تعداد مشخصی از مقادیر گمشده دارند.
Python
print(data.dropna(thresh=2))

2. حذف ستون ها:

  • استفاده از dropna(axis="columns"): این تابع DataFrame را با حذف ستون هایی که هر سطری مقدار گمشده دارد، برمی گرداند.
Python
print(data.dropna(axis="columns"))
  • استفاده از how="any": این آرگومان را به dropna(axis="columns") اضافه کنید تا فقط ستون هایی را حذف کنید که حداقل یک مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="any"))
  • استفاده از how="all": این آرگومان را به dropna(axis="columns") اضافه کنید تا فقط ستون هایی را حذف کنید که همه سطرها مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="all"))

3. حذف بر اساس شرایط:

  • می توانید از عبارات شرطی مانند if و else برای حذف سطرها و ستون هایی که شرایط خاصی را برای مقادیر گمشده برآورده می کنند استفاده کنید.
Python
def filter_data(df):
    # حذف سطرهایی که "A" و "B" هر دو مقدار گمشده دارند
    df.drop(df[(df["A"].isna()) & (df["B"].isna())].index, inplace=True)

    # حذف ستون "C" اگر بیش از 50٪ مقادیر گمشده داشته باشد
    if df["C"].isnull().sum() / len(df) > 0.5:
        df.drop("C", axis=1, inplace=True)

data = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, 5, None], "C": [7, 8, 9]})
filter_data(data.copy())

4. نکات:

  • قبل از حذف سطرها و ستون ها، تأثیر آن بر حجم داده ها و تجزیه و تحلیل خود را در نظر بگیرید.
  • از روش های جایگزینی مقادیر گمشده به عنوان جایگزینی برای حذف در صورت امکان استفاده کنید.
  • برای بررسی صحت و کامل بودن داده های خود پس از حذف، DataFrame را به دقت بررسی کنید.

با تسلط بر روش های حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.

 

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا