دستکاری اولیه داده ها: انتخاب، مرتب سازی، فیلتر کردن و حذف
Pandas ابزارهای قدرتمندی برای دستکاری اولیه داده ها مانند انتخاب، مرتب سازی، فیلتر کردن و حذف ارائه می دهد. این عملیات به شما امکان می دهد داده های خود را به طور کارآمد سازماندهی و آماده کنید تا بتوانید به راحتی آنها را تجزیه و تحلیل کنید.
انتخاب:
- انتخاب ستون ها:
Python
import pandas as pd
df = pd.DataFrame({"Name": ["Alice", "Bob", "Charlie"], "Age": [۳۰, ۲۵, ۲۲], "Country": ["USA", "Canada", "USA"]})
# انتخاب ستون های "Name" و "Age"
selected_df = df[["Name", "Age"]]
print(selected_df)
- انتخاب سطرها:
Python
# انتخاب سطرهایی که سن آنها بیشتر از ۲۵ سال است
filtered_df = df[df["Age"] > ۲۵]
print(filtered_df)
مرتب سازی:
- مرتب سازی بر اساس یک ستون:
Python
# مرتب سازی بر اساس ستون "Age" به صورت نزولی
sorted_df = df.sort_values(by="Age", ascending=False)
print(sorted_df)
- مرتب سازی بر اساس چند ستون:
Python
# مرتب سازی بر اساس ستون های "Country" و سپس "Age"
sorted_df = df.sort_values(by=["Country", "Age"], ascending=[True, False])
print(sorted_df)
فیلتر کردن:
- فیلتر کردن با شرایط:
Python
# فیلتر کردن سطرهایی که سن آنها بین ۲۵ تا ۳۰ سال است
filtered_df = df[(df["Age"] > ۲۵) & (df["Age"] < ۳۰)]
print(filtered_df)
- فیلتر کردن با مقادیر خاص:
Python
# فیلتر کردن سطرهایی که کشور آنها "USA" است
filtered_df = df[df["Country"] == "USA"]
print(filtered_df)
حذف:
- حذف سطرها:
Python
# حذف سطرهایی که سن آنها کمتر از ۲۰ سال است
df = df.drop(df[df["Age"] < ۲۰].index)
print(df)
- حذف ستون ها:
Python
# حذف ستون "Country"
df = df.drop("Country", axis=۱)
print(df)
نکات:
- می توانید از توابع Pandas مانند
loc
وiloc
برای انتخاب داده ها با استفاده از موقعیت آنها در DataFrame استفاده کنید. - می توانید از توابع Pandas مانند
query()
برای فیلتر کردن داده ها با استفاده از عبارات Boolean پیچیده تر استفاده کنید. - می توانید از توابع Pandas مانند
dropna()
وfillna()
برای حذف یا جایگزینی مقادیر گمشده در داده های خود استفاده کنید.
با استفاده از ابزارهای دستکاری داده Pandas، می توانید به سرعت و به آسانی داده های خود را مرتب، فیلتر و تمیز کنید تا برای تجزیه و تحلیل و مدل سازی آماده شوند.