
Phạm vi nghiên cứu tập trung chủ yếu vào các kỹ thuật xử lý ngôn ngữ tự
nhiên bao gồm cả các phương pháp truyền thống và các phương pháp hiện đại
(bao gồm các kỹ thuật về học máy và học sâu).
c) Tóm tắt các nội dung chính và đóng góp của tác giả
Nội dung chính của luận văn tốt nghiệp là trình bày các phương pháp để
giải quyết vấn đề trích rút thông tin quan trọng trong tập các văn bản và sau đó
tóm tắt lại bằng những câu hoàn toàn mới. Chi tiết nội dung của luận văn tốt
nghiệp được trình bày qua các mục sau:
1. Mở đầu: đặt vấn đề, giới thiệu bài toán và các nghiên cứu liên quan đến
lĩnh vực tóm tắt văn bản.
2. Cơ sở lý thuyết: trình bày các kiến thức cơ bản được sử dụng để xây
dựng nên mô hình đề xuất. Trong đó, bao gồm các kỹ thuật vector hóa
dữ liệu, các phương pháp được sử dụng để trích rút thông tin quan trọng,
và các kỹ thuật áp dụng cho bài tóm tóm tắt tóm lược.
3. Hướng tiếp cận và mô hình đề xuất: đề xuất mô hình tóm tắt đa văn bản
trích rút và mô hình tóm tắt đơn văn bản tóm lược. Từ đó, đề xuất ra mô
hình tóm tắt đa văn bản tóm lược cuối cùng.
4. Cài đặt, thử nghiệm và đánh giá: trình bày về các tập dữ liệu sử dụng
trong phạm vi luận văn và đưa ra các kết quả của các mô hình đã đề xuất
trên các bộ dữ liệu này. Từ đó chứng minh được tính hiệu quả của các
mô hình đề xuất.
5. Kết luận và hướng phát triển: trình bày những đóng góp, những khó
khăn trong quá trình thực hiện luận văn tốt nghiệp. Từ đó đề xuất các
hướng phát triển tiếp theo cho luận văn.
Những đóng góp của tác giả bao gồm:
1. Đề xuất mô hình hoàn chỉnh cho bài toán tóm tắt đa văn bản trích rút.
Trong đó, một bài báo khoa học đã được xuất bản để chứng minh mô
hình đề xuất là hiệu quả so với các phương pháp khác trên thế giới.
2. Đề xuất mô hình tóm tắt đơn văn bản tóm lược bằng cách tận dụng thêm
các đặc trưng từ các tài liệu đầu vào giúp cải thiện chất lượng của mô
hình tóm tắt.
3. Đề xuất được mô hình hoàn chỉnh cho bài toán tóm tóm tắt đa văn tóm
lược. Từ đó khắc phục được vấn đề khan hiếm dữ liệu hiện tại của bài
toán này.