Notice: Constant LEARNDASH_UPDATES_ENABLED already defined in /home/h246483/public_html/wp-content/plugins/sfwd-lms/nagatheme/naga-learndash-ic.php on line 0

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the wp-schema-pro domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /home/h246483/public_html/wp-includes/functions.php on line 6121
بارگذاری و کاوش در داده‌ها با scikit-learn - هادی محمدیان
Scikit-learn

بارگذاری و کاوش در داده‌ها با scikit-learn

بارگذاری و کاوش در داده‌ها با scikit-learn

مقدمه

کتابخانه scikit-learn ابزارهای قدرتمندی برای بارگذاری، پیش پردازش و کاوش در داده‌ها ارائه می‌دهد که گامی اساسی در فرآیند یادگیری ماشین به شمار می‌رود. در این نوشتار، به معرفی نحوه بارگذاری و کاوش در داده‌ها با استفاده از scikit-learn می‌پردازیم.

بارگذاری داده‌ها

  • از طریق کتابخانه numpy:
Python
import numpy as np

# بارگذاری داده ها از یک فایل CSV
data = np.genfromtxt('data.csv', delimiter=',')

# دسترسی به ویژگی ها و نمونه ها
features = data[:, :-1]  # ستون های ویژگی ها
labels = data[:, -1]    # ستون برچسب ها
  • از طریق کتابخانه pandas:
Python
import pandas as pd

# بارگذاری داده ها از یک فایل CSV
data = pd.read_csv('data.csv')

# دسترسی به ویژگی ها و نمونه ها
features = data.iloc[:, :-1].values  # مقادیر ستون های ویژگی ها
labels = data.iloc[:, -1].values   # مقادیر ستون برچسب ها

کاوش در داده‌ها

  • بررسی اطلاعات کلی:
Python
print(data.shape)  # نمایش تعداد نمونه ها و ویژگی ها
print(data.head())  # نمایش چند نمونه اول داده ها
print(data.describe())  # نمایش آمار توصیفی داده ها
  • بررسی توزیع داده‌ها:
Python
import matplotlib.pyplot as plt

# رسم هیستوگرام برای هر ویژگی
for i in range(data.shape[1]):
    plt.hist(data[:, i])
    plt.show()
  • بررسی همبستگی بین ویژگی‌ها:
Python
import seaborn as sns

# رسم ماتریس همبستگی
corr = data.corr()
sns.heatmap(corr, annot=True)
plt.show()
  • شناسایی مقادیر گمشده و ناقص:
Python
import missingno as mn

# نمایش ماتریس گرمایشی مقادیر گمشده
mn.matrix(data)
plt.show()
  • انجام پیش پردازش:
Python
from sklearn.preprocessing import StandardScaler

# استانداردسازی مقادیر ویژگی ها
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

نکات:

  • انتخاب روش مناسب بارگذاری داده‌ها به نوع فایل داده‌ها و ترجیح کاربر بستگی دارد.
  • کاوش در داده‌ها، اطلاعات ارزشمندی در مورد توزیع، همبستگی و مقادیر گمشده داده‌ها ارائه می‌دهد که در انتخاب الگوریتم و پیش پردازش داده‌ها مفید خواهد بود.
  • کتابخانه‌های sklearn.preprocessing و imblearn ابزارهای مختلفی برای پیش پردازش داده‌ها مانند استانداردسازی، مقیاس‌بندی و تعادل کلاس ارائه می‌دهند.

منابع:

 

0/5 ( 0 امتیاز )
نمایش بیشتر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا