Ứng dụng mô hình học máy dự báo chất lượng nước dưới đất: Điển hình tại khu vực thành phố Hội An, tỉnh Quảng Nam
Abstract
Bài báo nghiên cứu dự báo chất lượng nước dưới đất khu vực lân cận bãi rác Cẩm Hà, Tp. Hội An, Quảng Nam bằng các mô hình học máy. Nghiên cứu đã tiến hành phân tích bộ dữ liệu về chất lượng nước dưới đất trong mùa mưa và mùa khô. Bộ dữ liệu với 268 dòng, gồm 8 biến đầu vào (Fe, As, Mo, Co, Ni, Al, Zn, Pb) và 1 biến đầu ra (GWQI). Các tác giả đã nghiên cứu xác định mô hình dự báo tối ưu dựa vào các giá trị sai số tuyệt đối trung bình (MAE), sai số toàn phương trung bình (RMSE) và R2. Ngôn ngữ R được dùng để tối ưu hoá các mô hình hồi quy tuyến tính (LR), rừng ngẫu nhiên (RF), máy hỗ trợ vec-tơ (SVM), K- điểm dữ liệu gần nhất (KNN), mạng lập thể (Cubist) với tỉ lệ “Huấn luyện”:“Kiểm tra” từ 70:30 đến 85:15. Kết quả thu được cho thấy, mô hình Cubist ở tỷ lệ 70:30 là tối ưu nhất cho bộ dữ liệu tại khu vực lân cận bãi rác Cẩm Hà với độ tin cậy R2 lần lượt là 98,8% và 96%.