
đòi hỏi cao từ bản tóm tắt sinh ra từ mô hình tóm tắt đa văn bản làm cho bài toán này
trở nên bất khả thi để áp dụng vào thực tế cho đến khi phần cứng máy tính, dữ liệu và
các mô hình học sâu trở nên phát triển như hiện tại.
Khác với tóm tắt đơn văn bản, tóm tắt đa văn bản nhận đầu vào không chỉ là một
tài liệu đơn mà là một tập các tài liệu có nội dung liên quan đến nhau. Mục tiêu của bài
toán tóm tắt đa văn bản là thu gọn tập tài liệu đầu vào này sao cho các nội dung chính
vẫn phải được giữ lại. Ngoài ra, bản tóm tắt của mô hình tóm tắt đa văn bản cần phải
loại bỏ được những thông tin bị chồng chéo giữa các tài liệu, cần loại bỏ đi những nội
dung dư thừa và thậm chí còn yêu cầu chính xác về trình tự thời gian.
Do đặc điểm của hướng tóm tắt tóm lược là sinh ra một bản tóm tắt gồm những câu
hoàn toàn mới nên bản thân hướng tiếp cận này rõ ràng gặp phải nhiều khó khăn hơn
khi áp dụng cho bài toán tóm tắt đa văn bản. Đối với ngôn ngữ Việt Nam, đây là một
ngôn ngữ tương đối phức tạp so với ngôn ngữ phổ biến như tiếng Anh. Bài toán tóm tắt
đa văn bản cho tiếng Việt càng trở nên khó khăn hơn, xong thực tế tại Việt Nam lại chưa
có nhiều những nghiên cứu liên quan cũng như bộ dữ liệu chung cho bài toán này. Nhận
thấy những khó khăn cùng với thực trạng hiện tại, cấp thiết phải có những nghiên cứu
cho bài toán Tóm tắt đa văn bản nhằm đáp ứng thực tiễn cũng như để thu hút sự quan
tâm hơn nữa của cộng đồng nhà nghiên cứu về Xử lý ngôn ngữ tự nhiên tại Việt Nam.
Vì vậy, em quyết định lựa chọn đề tài "Tóm tắt đa văn bản tiếng Việt" theo hướng
tóm lược cho định hướng nghiên cứu cho đề tài luận văn tốt nghiệp của mình.
1.3 Ý nghĩa thực tiễn của đề tài
Ngày nay với dữ liệu dạng văn bản đang tăng nhanh với một tốc độ chóng mặt. Dữ
liệu có thể đến từ các trang báo, các báo cáo từ các trường học, các nghiên cứu khoa
học,... Cùng với đó, những thông tin thường chồng chéo nhau quá nhiều giữa các văn bản
làm cho việc lưu trữ hay tìm kiếm gặp nhiều khó khăn. Bài toán Tóm tắt văn bản đang
rất được các nhà nghiên cứu quan tâm nhằm giải quyết các vấn đề thực tiễn này.
Tóm tắt văn bản là một bài toán quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên,
bài toán có thể giúp giảm thiểu thời gian và công sức của con người trong nhiều lĩnh vực
trong đời sống. Một số bài toán thực tiễn có thể áp dụng Tóm tắt văn bản có thể kể đến
như sau:
• Áp dụng Tóm tắt văn bản cho bài toán Phát hiện sao chép: bài toán phát hiện sao
chép sẽ trở nên vô cùng phức tạp khi khối lượng văn bản trong kho dữ liệu tăng lên.
Khi mà để kiểm tra xem một văn bản có sao chép hay không, ta cần kiểm tra văn
bản đó với toàn bộ tập văn bản trong tập tài liệu. Việc làm này trở nên không tưởng
khi mà số văn bản trong kho dữ liệu quá lớn. Để giải quyết vấn đề này, bài toán tóm
tắt văn bản được áp dụng nhằm chọn lọc ra chỉ những thông tin quan trọng trong
văn bản. Bằng việc xác định những văn bản trong kho lưu trữ là tương đồng với văn
bản cần kiểm tra trùng lặp thông qua các bản tóm tắt, bài toán Phát hiện sao chép
trở nên khả thi cho dùng lượng văn bản trong kho dữ liệu ngày càng tăng lên.
• Áp dụng Tóm tắt văn bản cho bài toán Tổng hợp thông tin: hiện tại có rất nhiều
trang báo mạng cùng viết về một sự kiện hay vấn nạn gì đó, việc tổng hợp các thông
tin từ các trang báo này giúp cho người dùng có thể nắm bắt thông tin một các tổng
quát mà không cần tốn quá nhiều thời gian. Việc tìm đọc và tổng hợp các thông tin
chính từ các trang báo không chỉ đòi hỏi thời gian mà còn là chuyên môn của người
3