فهرست مطالب

پاکسازی و آماده سازی داده ها با scikit-learn

مقدمه

کتابخانه scikit-learn طیف گسترده‌ای از ابزارها را برای پاکسازی و آماده‌سازی داده‌ها ارائه می‌دهد که نقشی اساسی در ارتقای عملکرد مدل‌های یادگیری ماشین ایفا می‌کند. در این نوشتار، به معرفی برخی از ابزارهای کاربردی این کتابخانه در راستای پاکسازی و آماده‌سازی داده‌ها می‌پردازیم.

1. حذف مقادیر گمشده:

SimpleImputer: این کلاس برای جایگزینی مقادیر گمشده با مقادیر ثابت (مانند میانگین، میانه یا مد) یا با استفاده از استراتژی‌های مختلف مانند “پر کردن نزدیک‌ترین همسایه” (nearest neighbor imputation) به کار می‌رود.

Python
 from sklearn.impute import SimpleImputer

# جایگزینی مقادیر گمشده با میانگین
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
data_imputed = imputer.fit_transform(data)
 

Imputer: این کلاس امکان جایگزینی مقادیر گمشده با مقادیر پیش‌بینی‌شده توسط مدل‌های یادگیری ماشین را فراهم می‌کند.

Python
 from sklearn.experimental import impute

# جایگزینی مقادیر گمشده با مقادیر پیش‌بینی‌شده توسط رگرسیون خطی
imputer = impute.Imputer(estimator=LinearRegression())
data_imputed = imputer.fit_transform(data)
 

2. مدیریت ناهنجاری‌ها:

IQRRange: این کلاس برای شناسایی نقاط پرت بر اساس دامنه بین چارک اول و سوم (IQR) به کار می‌رود.

Python
 from sklearn.feature_selection import IQRRange

# شناسایی نقاط پرت
outlier_detector = IQRRange()
is_outlier = outlier_detector.fit_predict(data)
 

RobustScaler: این کلاس برای استانداردسازی داده‌ها با تمرکز بر کاهش اثر نقاط پرت به کار می‌رود.

Python
 from sklearn.preprocessing import RobustScaler

# استانداردسازی داده ها با تمرکز بر کاهش اثر نقاط پرت
scaler = RobustScaler()
data_scaled = scaler.fit_transform(data)
 

3. استانداردسازی و مقیاس‌گذاری:

StandardScaler: این کلاس برای استانداردسازی داده‌ها به گونه‌ای که میانگین آنها صفر و واریانس آنها یک شود، به کار می‌رود.

Python
 from sklearn.preprocessing import StandardScaler

# استانداردسازی داده ها
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
 

MinMaxScaler: این کلاس برای مقیاس‌گذاری داده‌ها به یک محدوده مشخص (مانند [0, 1]) به کار می‌رود.

Python
 from sklearn.preprocessing import MinMaxScaler

# مقیاس گذاری داده ها به محدوده [0, 1]
scaler = MinMaxScaler(feature_range=(0, 1))
data_scaled = scaler.fit_transform(data)
 

4. کدگذاری داده‌های دسته‌ای:

OneHotEncoder: این کلاس برای تبدیل داده‌های دسته‌ای به ماتریس‌های کدگذاری شده برچسب گرم (one-hot encoding) به کار می‌رود.

Python
 from sklearn.preprocessing import OneHotEncoder

# تبدیل داده های دسته‌ای به کدگذاری برچسب گرم
encoder = OneHotEncoder(handle_unknown='ignore')
data_encoded = encoder.fit_transform(data_categorical)
 

LabelBinarizer: این کلاس برای تبدیل داده‌های دسته‌ای به بردارهای دودویی (binary vectors) به کار می‌رود.

Python
 from sklearn.preprocessing import LabelBinarizer

# تبدیل داده های دسته‌ای به بردارهای دودویی
encoder = LabelBinarizer()
data_encoded = encoder.fit_transform(data_categorical)
 

نکات:

انتخاب روش مناسب برای پاکسازی و آماده سازی داده ها به نوع داده ها، وظیفه و الگوریتم یادگیری ماشین مورد استفاده بستگی دارد.
کتابخانه scikit-learn مجموعه ای از ابزارهای دیگر برای پیش پردازش داده ها مانند حذف ویژگی های کم اهمیت، انتخاب ویژگی ها و تبدیل نوع داده ها ارائه می دهد.
مستندات scikit-learn شرح دقیقی از هر ابزار و نحوه استفاده از آن را ارائه می دهد.

منابع:

[مستندات scikit-learn](https://scikit-learn.org/

5/5 ( 1 امتیاز )

برچسب‌ها

هادی محمدیان ۱۴۰۳/۰۲/۲۴آخرین به روز رسانی: ۱۴۰۳/۰۳/۰۶

۰ 40 خواندن این مطلب 2 دقیقه زمان میبرد

نمایش بیشتر

پاکسازی و آماده سازی داده ها با scikit-learn

مقدمه

1. حذف مقادیر گمشده:

2. مدیریت ناهنجاری‌ها:

3. استانداردسازی و مقیاس‌گذاری:

4. کدگذاری داده‌های دسته‌ای:

نکات:

منابع:

هادی محمدیان

بارگذاری و کاوش در داده‌ها با scikit-learn

تبدیل و مقیاس گذاری ویژگی ها با scikit-learn

نوشته‌های مشابه

طبقه‌بندی تصویر با scikit-learn

استخراج ویژگی از تصاویر با scikit-learn

معرفی مفاهیم پایه بینایی کامپیوتر در scikit-learn

طبقه‌بندی متنی با scikit-learn

دیدگاهتان را بنویسید لغو پاسخ