حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas
حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas
در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند ارائه می دهد.
۱. حذف سطرها:
۱. حذف سطرها:
- استفاده از
dropna()
: این تابع DataFrame را با حذف سطرهایی که هر ستونی مقدار گمشده دارد، برمی گرداند.
Python
import pandas as pd
data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None], "C": [۷, ۸, ۹]})
print(data.dropna())
- استفاده از
axis="index"
: این آرگومان را بهdropna()
اضافه کنید تا فقط سطرهای حاوی مقادیر گمشده را حذف کنید.
Python
print(data.dropna(axis="index"))
- استفاده از
thresh
: این آرگومان را بهdropna()
اضافه کنید تا فقط سطرهایی را حذف کنید که حداقل تعداد مشخصی از مقادیر گمشده دارند.
Python
print(data.dropna(thresh=۲))
۲. حذف ستون ها:
۲. حذف ستون ها:
- استفاده از
dropna(axis="columns")
: این تابع DataFrame را با حذف ستون هایی که هر سطری مقدار گمشده دارد، برمی گرداند.
Python
print(data.dropna(axis="columns"))
- استفاده از
how="any"
: این آرگومان را بهdropna(axis="columns")
اضافه کنید تا فقط ستون هایی را حذف کنید که حداقل یک مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="any"))
- استفاده از
how="all"
: این آرگومان را بهdropna(axis="columns")
اضافه کنید تا فقط ستون هایی را حذف کنید که همه سطرها مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="all"))
۳. حذف بر اساس شرایط:
۳. حذف بر اساس شرایط:
- می توانید از عبارات شرطی مانند
if
وelse
برای حذف سطرها و ستون هایی که شرایط خاصی را برای مقادیر گمشده برآورده می کنند استفاده کنید.
Python
def filter_data(df):
# حذف سطرهایی که "A" و "B" هر دو مقدار گمشده دارند
df.drop(df[(df["A"].isna()) & (df["B"].isna())].index, inplace=True)
# حذف ستون "C" اگر بیش از ۵۰٪ مقادیر گمشده داشته باشد
if df["C"].isnull().sum() / len(df) > ۰.۵:
df.drop("C", axis=۱, inplace=True)
data = pd.DataFrame({"A": [۱, ۲, np.nan], "B": [۴, ۵, None], "C": [۷, ۸, ۹]})
filter_data(data.copy())
۴. نکات:
۴. نکات:
- قبل از حذف سطرها و ستون ها، تأثیر آن بر حجم داده ها و تجزیه و تحلیل خود را در نظر بگیرید.
- از روش های جایگزینی مقادیر گمشده به عنوان جایگزینی برای حذف در صورت امکان استفاده کنید.
- برای بررسی صحت و کامل بودن داده های خود پس از حذف، DataFrame را به دقت بررسی کنید.
با تسلط بر روش های حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.