بارگذاری و کاوش در دادهها با scikit-learn
مقدمه
کتابخانه scikit-learn ابزارهای قدرتمندی برای بارگذاری، پیش پردازش و کاوش در دادهها ارائه میدهد که گامی اساسی در فرآیند یادگیری ماشین به شمار میرود. در این نوشتار، به معرفی نحوه بارگذاری و کاوش در دادهها با استفاده از scikit-learn میپردازیم.
بارگذاری دادهها
- از طریق کتابخانه
numpy
:
Python
import numpy as np
# بارگذاری داده ها از یک فایل CSV
data = np.genfromtxt('data.csv', delimiter=',')
# دسترسی به ویژگی ها و نمونه ها
features = data[:, :-1] # ستون های ویژگی ها
labels = data[:, -1] # ستون برچسب ها
- از طریق کتابخانه
pandas
:
Python
import pandas as pd
# بارگذاری داده ها از یک فایل CSV
data = pd.read_csv('data.csv')
# دسترسی به ویژگی ها و نمونه ها
features = data.iloc[:, :-1].values # مقادیر ستون های ویژگی ها
labels = data.iloc[:, -1].values # مقادیر ستون برچسب ها
کاوش در دادهها
- بررسی اطلاعات کلی:
Python
print(data.shape) # نمایش تعداد نمونه ها و ویژگی ها
print(data.head()) # نمایش چند نمونه اول داده ها
print(data.describe()) # نمایش آمار توصیفی داده ها
- بررسی توزیع دادهها:
Python
import matplotlib.pyplot as plt
# رسم هیستوگرام برای هر ویژگی
for i in range(data.shape[1]):
plt.hist(data[:, i])
plt.show()
- بررسی همبستگی بین ویژگیها:
Python
import seaborn as sns
# رسم ماتریس همبستگی
corr = data.corr()
sns.heatmap(corr, annot=True)
plt.show()
- شناسایی مقادیر گمشده و ناقص:
Python
import missingno as mn
# نمایش ماتریس گرمایشی مقادیر گمشده
mn.matrix(data)
plt.show()
- انجام پیش پردازش:
Python
from sklearn.preprocessing import StandardScaler
# استانداردسازی مقادیر ویژگی ها
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)
نکات:
- انتخاب روش مناسب بارگذاری دادهها به نوع فایل دادهها و ترجیح کاربر بستگی دارد.
- کاوش در دادهها، اطلاعات ارزشمندی در مورد توزیع، همبستگی و مقادیر گمشده دادهها ارائه میدهد که در انتخاب الگوریتم و پیش پردازش دادهها مفید خواهد بود.
- کتابخانههای
sklearn.preprocessing
وimblearn
ابزارهای مختلفی برای پیش پردازش دادهها مانند استانداردسازی، مقیاسبندی و تعادل کلاس ارائه میدهند.
منابع: