جمع آوری و خلاصه سازی داده ها در Pandas
Pandas به عنوان یک کتابخانه قدرتمند برای تجزیه و تحلیل داده ها، ابزارهای مختلفی برای جمع آوری و خلاصه سازی داده ها از منابع مختلف ارائه می دهد. این امر به شما امکان می دهد داده های خود را به طور موثر جمع آوری، سازماندهی و آماده سازی کنید تا از آنها در تحلیل ها و بینش های خود استفاده کنید.
1. جمع آوری داده ها:
-
از فایل های CSV:
Pythonimport pandas as pd data = pd.read_csv("data.csv")
-
از پایگاه های داده SQL:
Pythonimport pandas as pd import sqlalchemy engine = sqlalchemy.create_engine("postgresql://user:password@host:port/database") data = pd.read_sql_table("table_name", engine)
-
از API های وب:
Pythonimport pandas as pd import requests response = requests.get("https://api.example.com/data") data = pd.json_normalize(response.json())
-
از وب اسکریپینگ:
Pythonimport pandas as pd from bs4 import BeautifulSoup import requests response = requests.get("https://example.com") soup = BeautifulSoup(response.content, "html.parser") data = [] for row in soup.find_all("table", class_="data-table"): data.append([cell.text for cell in row.find_all("td")]) df = pd.DataFrame(data, columns=["column1", "column2", ...])
2. خلاصه سازی داده ها:
-
اطلاعات اولیه:
Pythonprint(data.info())
-
خلاصه آماری:
Pythonprint(data.describe())
-
بررسی مقادیر گمشده:
Pythonprint(data.isnull().sum())
-
بررسی توزیع داده ها:
Pythondata.hist(figsize=(10, 10)) plt.show()
-
تجزیه و تحلیل داده های متنی:
Pythonprint(data["text_column"].str.upper().str.strip().value_counts())
-
گروه بندی و جمع آوری:
Pythonprint(data.groupby("category")["value"].sum())
-
ایجاد شاخص های جدید:
Pythondata["new_column"] = data["column1"] + data["column2"]
3. ابزارهای مفید:
- توابع
head()
وtail()
: برای نمایش چند ردیف اول و آخر DataFrame - توابع
sort_values()
وindex()
: برای مرتب سازی DataFrame بر اساس ستون ها یا شاخص - توابع
groupby()
وagg()
: برای گروه بندی داده ها و اعمال توابع جمع آوری - توابع
apply()
وlambda
: برای اعمال توابع سفارشی به DataFrame - نمودارها و گراف ها: برای تجسم داده ها و ارائه بینش های خود
4. نکات:
- از انواع داده مناسب برای ستون های خود استفاده کنید.
- دقت و صحت داده های خود را بررسی کنید.
- از مستندات Pandas برای اطلاعات بیشتر در مورد توابع و روش ها استفاده کنید.
با تسلط بر طیف گسترده ای از ابزارهای جمع آوری و خلاصه سازی داده ها در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و بصیرت افزا آماده کنید.