علوم داده

DataFrame: ذخیره داده های چندبعدی (جدولی)

DataFrame: ذخیره داده‌های چندبعدی (جدولی)

DataFrame یکی از ساختارهای داده اصلی در Pandas است که برای ذخیره‌سازی داده‌های چندبعدی (مانند جدول) به همراه برچسب‌های مربوطه (شاخص و ستون‌ها) استفاده می‌شود.

ویژگی‌های DataFrame:

  • ذخیره‌سازی داده‌ها: DataFrame می‌تواند انواع مختلفی از داده‌ها مانند اعداد، رشته‌ها، تاریخ‌ها و مقادیر بولی را در ستون‌ها و سطرهای خود ذخیره کند.
  • برچسب‌گذاری: هر سطر در DataFrame با یک برچسب (شاخص) منحصر به فرد و هر ستون با یک برچسب منحصر به فرد (نام ستون) مرتبط است.
  • دسترسی به داده‌ها: می‌توانید به عناصر DataFrame با استفاده از شاخص‌ها و نام ستون‌ها به طور مستقیم یا با استفاده از توابع Pandas دسترسی داشته باشید.
  • عملیات: می‌توانید عملیات مختلفی مانند مرتب‌سازی، فیلتر کردن، جمع‌آوری، تجزیه و تحلیل آماری و ادغام داده‌ها را بر روی داده‌های DataFrame انجام دهید.

ایجاد DataFrame:

  • از لیست‌های لیست:
Python
import pandas as pd

data = [
    ["Alice", 30, "Female", "USA"],
    ["Bob", 25, "Male", "Canada"],
    ["Charlie", 22, "Male", "USA"],
]

df = pd.DataFrame(data, columns=["Name", "Age", "Gender", "Country"])
print(df)
  • از دیکشنری‌های دیکشنری:
Python
import pandas as pd

data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [30, 25, 22],
    "Gender": ["Female", "Male", "Male"],
    "Country": ["USA", "Canada", "USA"],
}

df = pd.DataFrame(data)
print(df)
  • از فایل‌های CSV یا Excel:
Python
import pandas as pd

df = pd.read_csv("data.csv")  # خواندن داده‌ها از فایل CSV
df = pd.read_excel("data.xlsx")  # خواندن داده‌ها از فایل Excel

دسترسی به داده‌ها:

  • با استفاده از شاخص و نام ستون:
Python
print(df["Name"][0])  # دسترسی به اولین عنصر در ستون "Name"
print(df.loc[0, "Age"])  # دسترسی به عنصر در سطر اول و ستون "Age"
  • با استفاده از توابع Pandas:
Python
print(df.head())  # نمایش پنج سطر اول
print(df.tail())  # نمایش پنج سطر آخر
print(df.describe())  # نمایش آمار توصیفی

عملیات:

  • مرتب‌سازی:
Python
df.sort_values(by="Age", ascending=False, inplace=True)  # مرتب‌سازی نزولی بر اساس سن در محل
print(df)
  • فیلتر کردن:
Python
filtered_df = df[df["Age"] > 25]  # فیلتر کردن سطرهایی که سن آنها بیشتر از 25 است
print(filtered_df)
  • جمع‌آوری:
Python
total_age = df["Age"].sum()
print(total_age)  # محاسبه مجموع سن‌ها
  • تجزیه و تحلیل آماری:
Python
print(df["Age"].mean())  # میانگین سن
print(df["Age"].std())  # انحراف معیار سن
  • ادغام داده‌ها:
Python
import numpy as np

new_data = np.array([["David", 28, "Male", "Mexico"]])
new_df = pd.DataFrame(new_data, columns=df.columns)

merged_df = pd.concat([df, new_df], ignore_index=True)
print(merged_df)  # ادغام DataFrame ها

DataFrame ابزاری قدرتمند برای ذخیره‌سازی، دستکاری، تجزیه و تحلیل و ادغام داده‌های چندبعدی در Pandas است. با استفاده از DataFrame، می‌توانید به طور کارآمد با داده‌های جدولی خود کار کنید و بینش‌های ارزشمندی از آنها استخراج کنید.

  

نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا