حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas
حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas
در تجزیه و تحلیل داده، مقادیر گمشده می توانند چالش برانگیز باشند و بر دقت و اعتبار نتایج شما تأثیر بگذارند. Pandas به عنوان ابزاری قدرتمند برای دستکاری و تجزیه و تحلیل داده ها، روش های مختلفی برای حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند ارائه می دهد.
1. حذف سطرها:
1. حذف سطرها:
- استفاده از
dropna()
: این تابع DataFrame را با حذف سطرهایی که هر ستونی مقدار گمشده دارد، برمی گرداند.
Python
import pandas as pd
data = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, 5, None], "C": [7, 8, 9]})
print(data.dropna())
- استفاده از
axis="index"
: این آرگومان را بهdropna()
اضافه کنید تا فقط سطرهای حاوی مقادیر گمشده را حذف کنید.
Python
print(data.dropna(axis="index"))
- استفاده از
thresh
: این آرگومان را بهdropna()
اضافه کنید تا فقط سطرهایی را حذف کنید که حداقل تعداد مشخصی از مقادیر گمشده دارند.
Python
print(data.dropna(thresh=2))
2. حذف ستون ها:
2. حذف ستون ها:
- استفاده از
dropna(axis="columns")
: این تابع DataFrame را با حذف ستون هایی که هر سطری مقدار گمشده دارد، برمی گرداند.
Python
print(data.dropna(axis="columns"))
- استفاده از
how="any"
: این آرگومان را بهdropna(axis="columns")
اضافه کنید تا فقط ستون هایی را حذف کنید که حداقل یک مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="any"))
- استفاده از
how="all"
: این آرگومان را بهdropna(axis="columns")
اضافه کنید تا فقط ستون هایی را حذف کنید که همه سطرها مقدار گمشده دارند.
Python
print(data.dropna(axis="columns", how="all"))
3. حذف بر اساس شرایط:
3. حذف بر اساس شرایط:
- می توانید از عبارات شرطی مانند
if
وelse
برای حذف سطرها و ستون هایی که شرایط خاصی را برای مقادیر گمشده برآورده می کنند استفاده کنید.
Python
def filter_data(df):
# حذف سطرهایی که "A" و "B" هر دو مقدار گمشده دارند
df.drop(df[(df["A"].isna()) & (df["B"].isna())].index, inplace=True)
# حذف ستون "C" اگر بیش از 50٪ مقادیر گمشده داشته باشد
if df["C"].isnull().sum() / len(df) > 0.5:
df.drop("C", axis=1, inplace=True)
data = pd.DataFrame({"A": [1, 2, np.nan], "B": [4, 5, None], "C": [7, 8, 9]})
filter_data(data.copy())
4. نکات:
4. نکات:
- قبل از حذف سطرها و ستون ها، تأثیر آن بر حجم داده ها و تجزیه و تحلیل خود را در نظر بگیرید.
- از روش های جایگزینی مقادیر گمشده به عنوان جایگزینی برای حذف در صورت امکان استفاده کنید.
- برای بررسی صحت و کامل بودن داده های خود پس از حذف، DataFrame را به دقت بررسی کنید.
با تسلط بر روش های حذف سطرها و ستون هایی که حاوی مقادیر گمشده هستند در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و قابل اعتماد آماده کنید.