TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Tóm tắt đa văn bản tiếng Việt
Tác giả luận văn: Cao Mạnh Hải Khóa: 2019B
Người hướng dẫn: PGS.TS. Lê Thanh Hương
Từ khóa (Keyword): Vietnamese multi-document summarization, abstractive text
summarization, extractive text summarization, machine learning, deep learning.
Nội dung tóm tắt:
a) Lý do chọn đề tài
Dữ liệu trên mạng ngày càng ra tăng với một tốc độ chóng mặt theo thời
gian. Lượng dữ liệu quá lớn này trở nên rất khó kiểm soát gây ra những khó
khăn cho mọi người khi tìm đọc những thông tin trên mạng. Mọi người xu
hướng tìm đọc những thông tin ngắn gọn nhưng vẫn giữ được những ý chính.
Nhưng với việc dữ liệu ngày càng gia tăng, việc con người tự mình tạo ra các
bản tóm tắt bất khả thi. Đối với ngôn ngữ Việt Nam, đây một ngôn ngữ
tương đối phức tạp so với ngôn ngữ phổ biến như tiếng Anh. Bài toán tóm tắt đa
văn bản cho tiếng Việt càng trở nên khó khăn hơn, xong thực tế tại Việt Nam lại
chưa nhiều những nghiên cứu liên quan cũng như bộ dữ liệu chung cho bài
toán này. Nhận thấy những khó khăn cùng với thực trạng hiện tại, cấp thiết phải
những nghiên cứu cho bài toán Tóm tắt đa văn bản nhằm đáp ứng thực tiễn
cũng như để thu hút sự quan tâm hơn nữa của cộng đồng nhà nghiên cứu về Xử
lý ngôn ngữ tự nhiên tại Việt Nam.
b) Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Mục đích của nghiên cứu nhằm tìm hiểu các kỹ thuật Xử ngôn ngữ tự
nhiên các kiến thức về Học máy Học sâu từ đó áp dụng cho bài toán Tóm
tắt đa văn bản tiếng Việt. Kết hợp với việc tìm hiểu các phương pháp tóm tắt văn
bản truyền thống từ đó đưa ra cách kết hợp để cải thiện độ chính xác cho bài
toán. Ngoài ra, luận văn cần đạt được những kết quả khả quan để từ đó làm tham
chiếu cho các nghiên cứu về tóm tắt văn bản sau này.
Đối tượng nghiên cứu của luận văn tập trung chủ yếu vào ngôn ngữ tiếng
Việt. Bên cạnh đó, một tập dữ liệu tiếng anh được sử dụng nhằm mục đích chứng
minh tính hiệu quả của mô hình so với các phương pháp khác trên thế giới.
Phạm vi nghiên cứu tập trung chủ yếu vào các kỹ thuật xử ngôn ngữ tự
nhiên bao gồm cả các phương pháp truyền thống các phương pháp hiện đại
(bao gồm các kỹ thuật về học máy và học sâu).
c) Tóm tắt các nội dung chính và đóng góp của tác giả
Nội dung chính của luận văn tốt nghiệp trình bày các phương pháp để
giải quyết vấn đề trích rút thông tin quan trọng trong tập các văn bản sau đó
tóm tắt lại bằng những câu hoàn toàn mới. Chi tiết nội dung của luận văn tốt
nghiệp được trình bày qua các mục sau:
1. Mở đầu: đặt vấn đề, giới thiệu bài toán các nghiên cứu liên quan đến
lĩnh vực tóm tắt văn bản.
2. sở thuyết: trình bày các kiến thức bản được sử dụng để xây
dựng nên hình đề xuất. Trong đó, bao gồm các kỹ thuật vector hóa
dữ liệu, các phương pháp được sử dụng để trích rút thông tin quan trọng,
và các kỹ thuật áp dụng cho bài tóm tóm tắt tóm lược.
3. Hướng tiếp cận hình đề xuất: đề xuất hình tóm tắt đa văn bản
trích rút hình tóm tắt đơn văn bản tóm lược. Từ đó, đề xuất ra
hình tóm tắt đa văn bản tóm lược cuối cùng.
4. Cài đặt, thử nghiệm đánh giá: trình bày về các tập dữ liệu sử dụng
trong phạm vi luận văn đưa ra các kết quả của các hình đã đề xuất
trên các bộ dữ liệu này. Từ đó chứng minh được tính hiệu quả của các
mô hình đề xuất.
5. Kết luận hướng phát triển: trình bày những đóng góp, những khó
khăn trong quá trình thực hiện luận văn tốt nghiệp. Từ đó đề xuất các
hướng phát triển tiếp theo cho luận văn.
Những đóng góp của tác giả bao gồm:
1. Đề xuất hình hoàn chỉnh cho bài toán tóm tắt đa văn bản trích rút.
Trong đó, một bài báo khoa học đã được xuất bản để chứng minh
hình đề xuất là hiệu quả so với các phương pháp khác trên thế giới.
2. Đề xuất hình tóm tắt đơn văn bản tóm lược bằng cách tận dụng thêm
các đặc trưng từ các tài liệu đầu vào giúp cải thiện chất lượng của
hình tóm tắt.
3. Đề xuất được hình hoàn chỉnh cho bài toán tóm tóm tắt đa văn tóm
lược. Từ đó khắc phục được vấn đề khan hiếm dữ liệu hiện tại của bài
toán này.
4. Thử nghiệm được các hình đề xuất trên các tập dữ liệu cho thấy
tính hiệu quả của các mô hình đề xuất này đối với tiếng Việt.
d) Phương pháp nghiên cứu
Luận văn tập trung vào cả các phương pháp truyền thống các phương
pháp hiện đại như các phương pháp liên quan đến học máy học sâu. Ngoài ra,
luận văn cũng linh hoạt thực hiện 2 hướng tiếp cận học không giám sát (trong
hình tóm tắt đa trích rút) học giám sát (trong hình tóm tắt đơn tóm
lược). Cùng với đó, các phương pháp về xử dữ liệu các kỹ thuật trích rút
đặc trưng cũng được sử dụng để giải quyết các vấn đề về ngôn ngữ.
e) Kết luận
Luận văn đã hoàn thành được các nhiệm vụ giáo viên hướng dẫn giao ra
cho học viên. Cùng với đó, một bài báo khoa học cũng đã được học viên công bố
nhằm chứng minh tính hiệu quả của mô hình tóm tắt đa trích rút đề xuất.
Cụ thể, luận văn giải quyết bài toán tóm tắt tóm lược đa văn bản tiếng Việt
dựa trên cách tiếp cận kết hợp tóm tắt đa văn bản kiểu trích rút tóm tắt đơn
văn bản kiểu tóm lược. Các kết quả thử nghiệm cho thấy hình đề xuất kết
quả khá triển vọng so với các nghiên cứu trên thế giới.