ایجاد Series و DataFrame از ابتدا
در Pandas، دو ساختار داده اصلی برای ذخیره و دستکاری داده ها وجود دارد: Series و DataFrame.
ایجاد Series:
- از لیست:
import pandas as pd
data = [۱, ۲, ۳, ۴, ۵]
s = pd.Series(data)
print(s)
خروجی:
۰ ۱
۱ ۲
۲ ۳
۳ ۴
۴ ۵
dtype: int64
در این مثال، data
یک لیست از اعداد است. pd.Series()
این لیست را به یک Series به نام s
تبدیل می کند که در آن هر عدد به عنوان یک عنصر و موقعیت آن در لیست به عنوان شاخص آن در نظر گرفته می شود.
- از آرایه NumPy:
import numpy as np
import pandas as pd
data = np.array([۱, ۲, ۳, ۴, ۵])
s = pd.Series(data)
print(s)
خروجی:
۰ ۱
۱ ۲
۲ ۳
۳ ۴
۴ ۵
dtype: int64
در این مثال، data
یک آرایه NumPy از اعداد است. pd.Series()
این آرایه را به یک Series به نام s
تبدیل می کند، به روشی مشابه مثال قبل.
- از دیکشنری:
import pandas as pd
data = {"a": ۱, "b": ۲, "c": ۳}
s = pd.Series(data)
print(s)
خروجی:
a 1
b 2
c 3
dtype: int64
در این مثال، data
یک دیکشنری است که کلیدها و مقادیر آن به ترتیب به عنوان شاخص ها و عناصر Series به نام s
استفاده می شوند.
ایجاد DataFrame:
- از لیست های لیست:
import pandas as pd
data = [
["Alice", ۳۰, "Female", "USA"],
["Bob", ۲۵, "Male", "Canada"],
["Charlie", ۲۲, "Male", "USA"],
]
df = pd.DataFrame(data, columns=["Name", "Age", "Gender", "Country"])
print(df)
خروجی:
Name Age Gender Country
۰ Alice 30 Female USA
۱ Bob 25 Male Canada
۲ Charlie 22 Male USA
در این مثال، data
یک لیست از لیست ها است که هر لیست فرعی اطلاعات مربوط به یک سطر در DataFrame را نشان می دهد. pd.DataFrame()
این لیست را به یک DataFrame به نام df
تبدیل می کند، که در آن هر ستون بر اساس نام ستون های مشخص شده (["Name", "Age", "Gender", "Country"]
) و هر سطر بر اساس داده های لیست های فرعی ایجاد می شود.
- از دیکشنری های دیکشنری:
import pandas as pd
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [۳۰, ۲۵, ۲۲],
"Gender": ["Female", "Male", "Male"],
"Country": ["USA", "Canada", "USA"],
}
df = pd.DataFrame(data)
print(df)
خروجی:
Name Age Gender Country
۰ Alice 30 Female USA
۱ Bob 25 Male Canada
۲ Charlie 22 Male USA
مشابه مثال قبل، data
یک دیکشنری از دیکشنری ها است که کلیدها و مقادیر آن به ترتیب به عنوان نام ستون ها و داده های هر ستون در DataFrame به نام df
استفاده می شوند.
- از فایل های CSV یا Excel:
import pandas as pd
df = pd.read_csv("data.csv") # خواندن داده ها از فایل CSV
df = pd.read_excel("data.xlsx") # خواندن داده ها از فایل Excel
در این مثال، pd.read_csv()
و pd.read_excel()
به ترتیب برای خواندن دادهها از یک فایل CSV و یک فایل Excel به یک DataFrame به نام df
استفاده میشوند.