Dup-apriori: Thuật toán hiệu quả khai thác tập phổ biến dựa trên giao dịch trùng lặp

Abstract

Thuật toán Apriori là thuật toán kinh điển được dùng cho khai thác tập phổ biến từ dữ liệu giao dịch nhị phân – giai đoạn quan trọng trong khai thác luật kết hợp. Đây là thuật toán được nhiều nhóm nghiên cứu quan tâm cải tiến, cũng như sử dụng khai thác trên nhiều loại dữ liệu khác nhau. Trong bài viết này, tác giả trình bày tiếp cận mới trong cải tiến hiệu quả thuật toán Apriori dựa trên giao dịch trùng lặp - giúp đẩy nhanh tốc độ tính toán và giảm thiểu quá trình truy xuất dữ liệu. Thuật toán cải tiến được gọi là DUP-Apriori. Tác giả tiến hành thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và dữ liệu giả lập của trung tâm nghiên cứu IBM Almaden, cho thấy thuật toán cải tiến hiệu quả so với thuật toán gần đây.