Scikit-learn

بارگذاری و کاوش در داده‌ها با scikit-learn

بارگذاری و کاوش در داده‌ها با scikit-learn

مقدمه

کتابخانه scikit-learn ابزارهای قدرتمندی برای بارگذاری، پیش پردازش و کاوش در داده‌ها ارائه می‌دهد که گامی اساسی در فرآیند یادگیری ماشین به شمار می‌رود. در این نوشتار، به معرفی نحوه بارگذاری و کاوش در داده‌ها با استفاده از scikit-learn می‌پردازیم.

بارگذاری داده‌ها

  • از طریق کتابخانه numpy:
Python
import numpy as np

# بارگذاری داده ها از یک فایل CSV
data = np.genfromtxt('data.csv', delimiter=',')

# دسترسی به ویژگی ها و نمونه ها
features = data[:, :-1]  # ستون های ویژگی ها
labels = data[:, -1]    # ستون برچسب ها
  • از طریق کتابخانه pandas:
Python
import pandas as pd

# بارگذاری داده ها از یک فایل CSV
data = pd.read_csv('data.csv')

# دسترسی به ویژگی ها و نمونه ها
features = data.iloc[:, :-1].values  # مقادیر ستون های ویژگی ها
labels = data.iloc[:, -1].values   # مقادیر ستون برچسب ها

کاوش در داده‌ها

  • بررسی اطلاعات کلی:
Python
print(data.shape)  # نمایش تعداد نمونه ها و ویژگی ها
print(data.head())  # نمایش چند نمونه اول داده ها
print(data.describe())  # نمایش آمار توصیفی داده ها
  • بررسی توزیع داده‌ها:
Python
import matplotlib.pyplot as plt

# رسم هیستوگرام برای هر ویژگی
for i in range(data.shape[1]):
    plt.hist(data[:, i])
    plt.show()
  • بررسی همبستگی بین ویژگی‌ها:
Python
import seaborn as sns

# رسم ماتریس همبستگی
corr = data.corr()
sns.heatmap(corr, annot=True)
plt.show()
  • شناسایی مقادیر گمشده و ناقص:
Python
import missingno as mn

# نمایش ماتریس گرمایشی مقادیر گمشده
mn.matrix(data)
plt.show()
  • انجام پیش پردازش:
Python
from sklearn.preprocessing import StandardScaler

# استانداردسازی مقادیر ویژگی ها
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

نکات:

  • انتخاب روش مناسب بارگذاری داده‌ها به نوع فایل داده‌ها و ترجیح کاربر بستگی دارد.
  • کاوش در داده‌ها، اطلاعات ارزشمندی در مورد توزیع، همبستگی و مقادیر گمشده داده‌ها ارائه می‌دهد که در انتخاب الگوریتم و پیش پردازش داده‌ها مفید خواهد بود.
  • کتابخانه‌های sklearn.preprocessing و imblearn ابزارهای مختلفی برای پیش پردازش داده‌ها مانند استانداردسازی، مقیاس‌بندی و تعادل کلاس ارائه می‌دهند.

منابع:

 

0/5 ( 0 امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا