Tăng cường trọng số BM25 kết hợp mô hình ngữ cảnh cho việc dò tìm báo cáo lỗi trùng nhau

Abstract

Những báo cáo lỗi được những người sử dụng gửi thường được lưu trữ và quản lý bởi những hệ thống quản lý lỗi của những dự án phần mềm nguồn mở như Open Office, Mozilla Firefox, Eclipse... Những lập trình viên sẽ dựa vào những báo cáo lỗi này để xử lý lỗi. Tuy nhiên, có quá nhiều báo cáo lỗi gửi đến hệ thống, khi đó sẽ có những báo cáo lỗi trùng nhau. Do đó, việc phải xác định báo cáo lỗi vừa được gửi đến có bị trùng hay không sẽ mất nhiều thời gian và công sức của người được phân công xử lý lỗi. Trong bài báo này, nhóm tác giả giới thiệu một phương pháp mới tự động dò tìm những báo cáo lỗi trùng nhau bằng cách sử dụng mô hình LDA-NWF (Latent Dirichlet Allocation-New Weight Feature). Mô hình này là sự kết hợp giữa mô hình LDA với đặc điểm trọng số mới. Kết quả thực nghiệm trên ba hệ thống Open Office, Eclipse và Mozilla cho thấy, phương pháp được giới thiệu đạt tỉ lệ chính xác cao hơn các phương pháp trước đó từ khoảng 4-9%.