Pandas

جمع آوری و خلاصه سازی داده ها در Pandas

جمع آوری و خلاصه سازی داده ها در Pandas

Pandas به عنوان یک کتابخانه قدرتمند برای تجزیه و تحلیل داده ها، ابزارهای مختلفی برای جمع آوری و خلاصه سازی داده ها از منابع مختلف ارائه می دهد. این امر به شما امکان می دهد داده های خود را به طور موثر جمع آوری، سازماندهی و آماده سازی کنید تا از آنها در تحلیل ها و بینش های خود استفاده کنید.

1. جمع آوری داده ها:

  • از فایل های CSV:

    Python
    import pandas as pd
    
    data = pd.read_csv("data.csv")
    
  • از پایگاه های داده SQL:

    Python
    import pandas as pd
    import sqlalchemy
    
    engine = sqlalchemy.create_engine("postgresql://user:password@host:port/database")
    data = pd.read_sql_table("table_name", engine)
    
  • از API های وب:

    Python
    import pandas as pd
    import requests
    
    response = requests.get("https://api.example.com/data")
    data = pd.json_normalize(response.json())
    
  • از وب اسکریپینگ:

    Python
    import pandas as pd
    from bs4 import BeautifulSoup
    import requests
    
    response = requests.get("https://example.com")
    soup = BeautifulSoup(response.content, "html.parser")
    
    data = []
    for row in soup.find_all("table", class_="data-table"):
        data.append([cell.text for cell in row.find_all("td")])
    
    df = pd.DataFrame(data, columns=["column1", "column2", ...])
    

2. خلاصه سازی داده ها:

  • اطلاعات اولیه:

    Python
    print(data.info())
    
  • خلاصه آماری:

    Python
    print(data.describe())
    
  • بررسی مقادیر گمشده:

    Python
    print(data.isnull().sum())
    
  • بررسی توزیع داده ها:

    Python
    data.hist(figsize=(10, 10))
    plt.show()
    
  • تجزیه و تحلیل داده های متنی:

    Python
    print(data["text_column"].str.upper().str.strip().value_counts())
    
  • گروه بندی و جمع آوری:

    Python
    print(data.groupby("category")["value"].sum())
    
  • ایجاد شاخص های جدید:

    Python
    data["new_column"] = data["column1"] + data["column2"]
    

3. ابزارهای مفید:

  • توابع head() و tail(): برای نمایش چند ردیف اول و آخر DataFrame
  • توابع sort_values() و index(): برای مرتب سازی DataFrame بر اساس ستون ها یا شاخص
  • توابع groupby() و agg(): برای گروه بندی داده ها و اعمال توابع جمع آوری
  • توابع apply() و lambda: برای اعمال توابع سفارشی به DataFrame
  • نمودارها و گراف ها: برای تجسم داده ها و ارائه بینش های خود

4. نکات:

  • از انواع داده مناسب برای ستون های خود استفاده کنید.
  • دقت و صحت داده های خود را بررسی کنید.
  • از مستندات Pandas برای اطلاعات بیشتر در مورد توابع و روش ها استفاده کنید.

با تسلط بر طیف گسترده ای از ابزارهای جمع آوری و خلاصه سازی داده ها در Pandas، می توانید به طور موثر داده های خود را برای تحلیل های دقیق و بصیرت افزا آماده کنید.

5/5 ( 1 امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا