Ứng dụng thuật toán so khớp cực đại và cơ chế vecto
Tóm tắt: Trong bài báo này, chúng tôi giới thiệu một cách tiếp cận mới cho bài toán gán nhãn ranh giới từ tiếng Việt. Thay vì sử dụng các cách tiếp cận cho bài toán này theo hướng riêng rẽ các mô hình như: WFST (Weighted Finite State Transducer: chuyển đổi trạng thái trọng số hữu hạn), ME(Maximum Entropy: độ hỗn loạn cực đại),
MM(Maximum Matching: so khớp cực đại)… chúng tôi thử nghiệm mô hình kết hợp giữa cách tiếp cận dựa trên từ điển học MM và cách tiếp dựa trên học thống kê từ kho ngữ liệu vàng SVM (Support Vector Machines: cơ chế vectơ hỗ trợ). Trong đó, vần đề gán nhãn ranh giới từ trở thành vấn đề gán nhãn vị trí của tiếng trong từ. Các kết quả đạt được từ thí nghiệm của chúng tôi đã chứng minh tính khả thi của mô hình kết hợp nói trên. Chúng tôi đạt được hiệu quả tốt nhất trên ngữ liệu vnQTAG [10] với độ chính xác đạt được là 97.72%, cao hơn so với các phương pháp khác.