فهرست مطالب

بارگذاری و کاوش در داده‌ها با scikit-learn

مقدمه

کتابخانه scikit-learn ابزارهای قدرتمندی برای بارگذاری، پیش پردازش و کاوش در داده‌ها ارائه می‌دهد که گامی اساسی در فرآیند یادگیری ماشین به شمار می‌رود. در این نوشتار، به معرفی نحوه بارگذاری و کاوش در داده‌ها با استفاده از scikit-learn می‌پردازیم.

بارگذاری داده‌ها

از طریق کتابخانه numpy:

Python
 import numpy as np

# بارگذاری داده ها از یک فایل CSV
data = np.genfromtxt('data.csv', delimiter=',')

# دسترسی به ویژگی ها و نمونه ها
features = data[:, :-1]  # ستون های ویژگی ها
labels = data[:, -1]    # ستون برچسب ها
 

از طریق کتابخانه pandas:

Python
 import pandas as pd

# بارگذاری داده ها از یک فایل CSV
data = pd.read_csv('data.csv')

# دسترسی به ویژگی ها و نمونه ها
features = data.iloc[:, :-1].values  # مقادیر ستون های ویژگی ها
labels = data.iloc[:, -1].values   # مقادیر ستون برچسب ها
 

کاوش در داده‌ها

بررسی اطلاعات کلی:

Python
 print(data.shape)  # نمایش تعداد نمونه ها و ویژگی ها
print(data.head())  # نمایش چند نمونه اول داده ها
print(data.describe())  # نمایش آمار توصیفی داده ها
 

بررسی توزیع داده‌ها:

Python
 import matplotlib.pyplot as plt

# رسم هیستوگرام برای هر ویژگی
for i in range(data.shape[1]):
    plt.hist(data[:, i])
    plt.show()
 

بررسی همبستگی بین ویژگی‌ها:

Python
 import seaborn as sns

# رسم ماتریس همبستگی
corr = data.corr()
sns.heatmap(corr, annot=True)
plt.show()
 

شناسایی مقادیر گمشده و ناقص:

Python
 import missingno as mn

# نمایش ماتریس گرمایشی مقادیر گمشده
mn.matrix(data)
plt.show()
 

انجام پیش پردازش:

Python
 from sklearn.preprocessing import StandardScaler

# استانداردسازی مقادیر ویژگی ها
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)
 

نکات:

انتخاب روش مناسب بارگذاری داده‌ها به نوع فایل داده‌ها و ترجیح کاربر بستگی دارد.
کاوش در داده‌ها، اطلاعات ارزشمندی در مورد توزیع، همبستگی و مقادیر گمشده داده‌ها ارائه می‌دهد که در انتخاب الگوریتم و پیش پردازش داده‌ها مفید خواهد بود.
کتابخانه‌های sklearn.preprocessing و imblearn ابزارهای مختلفی برای پیش پردازش داده‌ها مانند استانداردسازی، مقیاس‌بندی و تعادل کلاس ارائه می‌دهند.