علوم داده

تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها با Pandas 

تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها با Pandas

در اینجا چند نمونه از نحوه استفاده از Pandas برای تجزیه و تحلیل داده های آزمایشگاهی، تجزیه و تحلیل مجموعه داده های حسگر و مدل سازی داده ها آورده شده است:

1. تجزیه و تحلیل داده های آزمایشگاهی:

فرض کنید در حال انجام آزمایشاتی برای بررسی اثر یک دارو بر فشار خون موش ها هستید. داده های شما شامل فشار خون هر موش قبل و بعد از تجویز دارو است. می توانید از Pandas برای موارد زیر استفاده کنید:

  • محاسبه میانگین، انحراف معیار و سایر آمار توصیفی فشار خون قبل و بعد.
  • ایجاد نمودارها و پلات هایی برای تجسم توزیع داده ها و مقایسه فشار خون قبل و بعد.
  • انجام آزمون های آماری برای تعیین اینکه آیا دارو اثر قابل توجهی بر فشار خون داشته است یا خیر.
Python
import pandas as pd

# بارگیری داده ها از فایل CSV
data = pd.read_csv("blood_pressure_data.csv")

# محاسبه آمار توصیفی
data.describe()

# ایجاد نمودار توزیع فشار خون قبل و بعد
data["Pre-treatment BP"].hist()
data["Post-treatment BP"].hist()
plt.show()

# انجام آزمون t-student برای مقایسه فشار خون قبل و بعد
from scipy.stats import ttest_ind
t_statistic, p_value = ttest_ind(data["Pre-treatment BP"], data["Post-treatment BP"])
print("t-statistic:", t_statistic)
print("p-value:", p_value)

2. تجزیه و تحلیل مجموعه داده های حسگر:

فرض کنید حسگرهایی را برای نظارت بر دما و رطوبت در یک گلخانه نصب کرده اید. داده های شما شامل مقادیر دما و رطوبت در طول زمان است. می توانید از Pandas برای موارد زیر استفاده کنید:

  • ایجاد سری های زمانی برای دما و رطوبت.
  • تجزیه و تحلیل روندها و الگوهای دما و رطوبت در طول زمان.
  • شناسایی رویدادهای غیرعادی مانند نوسانات ناگهانی دما یا رطوبت.
Python
import pandas as pd

# بارگیری داده ها از فایل CSV
data = pd.read_csv("sensor_data.csv")

# تبدیل تاریخ و زمان به مقادیر زمان
data["Timestamp"] = pd.to_datetime(data["Timestamp"])
data.set_index("Timestamp", inplace=True)

# ایجاد سری های زمانی برای دما و رطوبت
temperature_series = data["Temperature"]
humidity_series = data["Humidity"]

# تجزیه و تحلیل روند دما و رطوبت
temperature_series.plot(figsize=(10, 5))
humidity_series.plot(figsize=(10, 5))
plt.show()

# شناسایی رویدادهای غیرعادی
temperature_alerts = temperature_series[temperature_series > 90]
humidity_alerts = humidity_series[humidity_series < 20]
print("Temperature alerts:", temperature_alerts)
print("Humidity alerts:", humidity_alerts)

3. مدل سازی داده ها:

فرض کنید می خواهید مدلی برای پیش بینی قیمت مسکن بر اساس متغیرهایی مانند متراژ، تعداد اتاق خواب، حمام و موقعیت مکانی بسازید. می توانید از Pandas برای موارد زیر استفاده کنید:

  • آماده سازی داده ها برای مدل سازی، از جمله پاکسازی داده ها، مقیاس بندی ویژگی ها و مدیریت مقادیر گمشده.
  • تقسیم داده ها به مجموعه های آموزشی و آزمایشی.
  • ایجاد و آموزش مدل پیش بینی با استفاده از کتابخانه ای مانند scikit-learn.
  • ارزیابی عملکرد مدل بر روی مجموعه داده های آزمایشی.
Python
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# بارگیری داده ها از فایل CSV
data = pd.read_csv("house_prices.csv")

# آماده سازی داده ها برای مدل سازی
data.dropna(inplace=True)
data["Square Footage"] = data["Square Footage"].astype(float)
data["Bedrooms"] = data["Bedrooms"].astype(int)
data["Bathrooms"] = data["Bathrooms"].astype(float)

# کدگذاری مقادیر دستوری
from sklearn.preprocessing import OneHotEncoder 
encoder = OneHotEncoder() 
location_encoded = encoder.fit_transform(data[["Location"]]) 
data_encoded = pd.concat([data[["Square Footage", "Bedrooms", "Bathrooms"]], pd.DataFrame(location_encoded, columns=encoder.get_feature_names_out())], axis=1) 

# تقسیم داده ها به مجموعه های آموزشی و آزمایشی 
X = data_encoded 
y = data["Price"] 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) 

# ایجاد و آموزش مدل رگرسیون خطی 
model = LinearRegression() model.fit(X_train, y_train) 

# ارزیابی عملکرد مدل 
from sklearn.metrics import mean_squared_error, r2_score 
y_pred = model.predict(X_test) 
mse = mean_squared_error(y_test, y_pred) 
rmse = np.sqrt(mse) 
r2 = r2_score(y_test, y_pred) 
print("Mean Squared Error (MSE):", mse) 
print("Root Mean Squared Error (RMSE):", rmse) 
print("R-squared:", r2)
نمایش بیشتر

نوشته‌های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا