DataFrame: ذخیره دادههای چندبعدی (جدولی)
DataFrame یکی از ساختارهای داده اصلی در Pandas است که برای ذخیرهسازی دادههای چندبعدی (مانند جدول) به همراه برچسبهای مربوطه (شاخص و ستونها) استفاده میشود.
ویژگیهای DataFrame:
- ذخیرهسازی دادهها: DataFrame میتواند انواع مختلفی از دادهها مانند اعداد، رشتهها، تاریخها و مقادیر بولی را در ستونها و سطرهای خود ذخیره کند.
- برچسبگذاری: هر سطر در DataFrame با یک برچسب (شاخص) منحصر به فرد و هر ستون با یک برچسب منحصر به فرد (نام ستون) مرتبط است.
- دسترسی به دادهها: میتوانید به عناصر DataFrame با استفاده از شاخصها و نام ستونها به طور مستقیم یا با استفاده از توابع Pandas دسترسی داشته باشید.
- عملیات: میتوانید عملیات مختلفی مانند مرتبسازی، فیلتر کردن، جمعآوری، تجزیه و تحلیل آماری و ادغام دادهها را بر روی دادههای DataFrame انجام دهید.
ایجاد DataFrame:
- از لیستهای لیست:
Python
import pandas as pd
data = [
["Alice", ۳۰, "Female", "USA"],
["Bob", ۲۵, "Male", "Canada"],
["Charlie", ۲۲, "Male", "USA"],
]
df = pd.DataFrame(data, columns=["Name", "Age", "Gender", "Country"])
print(df)
- از دیکشنریهای دیکشنری:
Python
import pandas as pd
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [۳۰, ۲۵, ۲۲],
"Gender": ["Female", "Male", "Male"],
"Country": ["USA", "Canada", "USA"],
}
df = pd.DataFrame(data)
print(df)
- از فایلهای CSV یا Excel:
Python
import pandas as pd
df = pd.read_csv("data.csv") # خواندن دادهها از فایل CSV
df = pd.read_excel("data.xlsx") # خواندن دادهها از فایل Excel
دسترسی به دادهها:
- با استفاده از شاخص و نام ستون:
Python
print(df["Name"][۰]) # دسترسی به اولین عنصر در ستون "Name"
print(df.loc[۰, "Age"]) # دسترسی به عنصر در سطر اول و ستون "Age"
- با استفاده از توابع Pandas:
Python
print(df.head()) # نمایش پنج سطر اول
print(df.tail()) # نمایش پنج سطر آخر
print(df.describe()) # نمایش آمار توصیفی
عملیات:
- مرتبسازی:
Python
df.sort_values(by="Age", ascending=False, inplace=True) # مرتبسازی نزولی بر اساس سن در محل
print(df)
- فیلتر کردن:
Python
filtered_df = df[df["Age"] > ۲۵] # فیلتر کردن سطرهایی که سن آنها بیشتر از ۲۵ است
print(filtered_df)
- جمعآوری:
Python
total_age = df["Age"].sum()
print(total_age) # محاسبه مجموع سنها
- تجزیه و تحلیل آماری:
Python
print(df["Age"].mean()) # میانگین سن
print(df["Age"].std()) # انحراف معیار سن
- ادغام دادهها:
Python
import numpy as np
new_data = np.array([["David", ۲۸, "Male", "Mexico"]])
new_df = pd.DataFrame(new_data, columns=df.columns)
merged_df = pd.concat([df, new_df], ignore_index=True)
print(merged_df) # ادغام DataFrame ها
DataFrame ابزاری قدرتمند برای ذخیرهسازی، دستکاری، تجزیه و تحلیل و ادغام دادههای چندبعدی در Pandas است. با استفاده از DataFrame، میتوانید به طور کارآمد با دادههای جدولی خود کار کنید و بینشهای ارزشمندی از آنها استخراج کنید.