تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها با Pandas
در اینجا چند نمونه از نحوه استفاده از Pandas برای تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها آورده شده است:
۱. تجزیه و تحلیل داده های آزمایشگاهی:
فرض کنید در حال انجام آزمایشاتی برای بررسی اثر یک دارو بر فشار خون موش ها هستید. داده های شما شامل فشار خون هر موش قبل و بعد از تجویز دارو است. می توانید از Pandas برای موارد زیر استفاده کنید:
- محاسبه میانگین، انحراف معیار و سایر آمار توصیفی فشار خون قبل و بعد.
- ایجاد نمودارها و پلات هایی برای تجسم توزیع داده ها و مقایسه فشار خون قبل و بعد.
- انجام آزمون های آماری برای تعیین اینکه آیا دارو اثر قابل توجهی بر فشار خون داشته است یا خیر.
Python
import pandas as pd
# بارگیری داده ها از فایل CSV
data = pd.read_csv("blood_pressure_data.csv")
# محاسبه آمار توصیفی
data.describe()
# ایجاد نمودار توزیع فشار خون قبل و بعد
data["Pre-treatment BP"].hist()
data["Post-treatment BP"].hist()
plt.show()
# انجام آزمون t-student برای مقایسه فشار خون قبل و بعد
from scipy.stats import ttest_ind
t_statistic, p_value = ttest_ind(data["Pre-treatment BP"], data["Post-treatment BP"])
print("t-statistic:", t_statistic)
print("p-value:", p_value)
۲. تجزیه و تحلیل مجموعه داده های حسگر:
فرض کنید حسگرهایی را برای نظارت بر دما و رطوبت در یک گلخانه نصب کرده اید. داده های شما شامل مقادیر دما و رطوبت در طول زمان است. می توانید از Pandas برای موارد زیر استفاده کنید:
- ایجاد سری های زمانی برای دما و رطوبت.
- تجزیه و تحلیل روندها و الگوهای دما و رطوبت در طول زمان.
- شناسایی رویدادهای غیرعادی مانند نوسانات ناگهانی دما یا رطوبت.
Python
import pandas as pd
# بارگیری داده ها از فایل CSV
data = pd.read_csv("sensor_data.csv")
# تبدیل تاریخ و زمان به مقادیر زمان
data["Timestamp"] = pd.to_datetime(data["Timestamp"])
data.set_index("Timestamp", inplace=True)
# ایجاد سری های زمانی برای دما و رطوبت
temperature_series = data["Temperature"]
humidity_series = data["Humidity"]
# تجزیه و تحلیل روند دما و رطوبت
temperature_series.plot(figsize=(۱۰, ۵))
humidity_series.plot(figsize=(۱۰, ۵))
plt.show()
# شناسایی رویدادهای غیرعادی
temperature_alerts = temperature_series[temperature_series > ۹۰]
humidity_alerts = humidity_series[humidity_series < ۲۰]
print("Temperature alerts:", temperature_alerts)
print("Humidity alerts:", humidity_alerts)
۳. مدل سازی داده ها:
فرض کنید می خواهید مدلی برای پیش بینی قیمت مسکن بر اساس متغیرهایی مانند متراژ، تعداد اتاق خواب، حمام و موقعیت مکانی بسازید. می توانید از Pandas برای موارد زیر استفاده کنید:
- آماده سازی داده ها برای مدل سازی، از جمله پاکسازی داده ها، مقیاس بندی ویژگی ها و مدیریت مقادیر گمشده.
- تقسیم داده ها به مجموعه های آموزشی و آزمایشی.
- ایجاد و آموزش مدل پیش بینی با استفاده از کتابخانه ای مانند scikit-learn.
- ارزیابی عملکرد مدل بر روی مجموعه داده های آزمایشی.
Python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# بارگیری داده ها از فایل CSV
data = pd.read_csv("house_prices.csv")
# آماده سازی داده ها برای مدل سازی
data.dropna(inplace=True)
data["Square Footage"] = data["Square Footage"].astype(float)
data["Bedrooms"] = data["Bedrooms"].astype(int)
data["Bathrooms"] = data["Bathrooms"].astype(float)
# کدگذاری مقادیر دستوری
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
location_encoded = encoder.fit_transform(data[["Location"]])
data_encoded = pd.concat([data[["Square Footage", "Bedrooms", "Bathrooms"]], pd.DataFrame(location_encoded, columns=encoder.get_feature_names_out())], axis=۱)
# تقسیم داده ها به مجموعه های آموزشی و آزمایشی
X = data_encoded
y = data["Price"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=۰.۲, random_state=۴۲)
# ایجاد و آموزش مدل رگرسیون خطی
model = LinearRegression() model.fit(X_train, y_train)
# ارزیابی عملکرد مدل
from sklearn.metrics import mean_squared_error, r2_score
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("R-squared:", r2)