TRƯỜNG ĐẠI HỌC CH KHOA NỘI
LUẬN VĂN THẠC
Tóm tắt đa văn bản tiếng Việt
CAO MẠNH HẢI
hai.cmcb190206@sis.hust.edu.vn
Ngành Khoa học y tính
Giảng viên hướng dẫn: PGS.TS. Thanh Hương ———————–
Chữ của GVHD
Viện: Công nghệ thông tin và Truyền thông
NỘI, 12/2021
CỘNG HÒA HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
———————————————
BẢN C NHẬN CHỈNH SỬA LUẬN VĂN THẠC
Họ và tên tác giả luận văn: Cao Mạnh Hải
Đề tài luận văn: Tóm tắt đa văn bản tiếng Việt
Chuyên ngành: Khoa học dữ liệu
số SV: CB190206
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, b sung luận văn theo biên bản họp Hội đồng ngày 24/12/2021
với các nội dung sau:
Bổ sung sở thuyết cho ngôn ngữ tiếng Việt và tiếng Anh.
Bổ sung ý nghĩa thực tiễn cho đề tài.
Sửa các lỗi chính tả.
Nội, ngày tháng năm
Giáo viên hướng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
ĐỀ TÀI LUẬN VĂN
1. Thông tin về học viên
Họ và tên học viên: Cao Mạnh Hải học viên: CB190206
Điện thoại liên lạc: 0981245088 Email: hai.cmcb190206@sis.hust.edu.vn
Lớp: Khoa học dữ liệu (KH) Khóa: CH2019B
Luận văn tốt nghiệp được thực hiện tại: Trường Đại học Bách khoa Nội.
Thời gian làm Luận văn tốt nghiệp: Từ ngày 01/02/2020 đến 08/12/2021.
2. Mục đích nội dung của Luận văn tốt nghiệp
Tìm hiểu các kỹ thuật Xử ngôn ngữ tự nhiên và các kiến thức về Học y và Học
sâu từ đó áp dụng cho bài toán Tóm tắt đa văn bản tiếng Việt. Kết hợp với việc tìm
hiểu các phương pháp tóm tắt văn bản truyền thống từ đó đưa ra cách kết hợp để
cải thiện độ chính xác cho bài toán.
3. Các nhiệm vụ cụ thể của Luận văn tốt nghiệp
- Tìm hiểu thuyết Xử ngôn ngữ tự nhiên, Học máy và Học sâu.
- Tìm hiểu cách tiền xử dữ liệu và phương pháp véc hóa dữ liệu.
- Tìm hiểu các phương pháp tóm tắt văn bản đã được nghiên cứu.
- Tìm hiểu cách đánh giá độ chính xác cho bài toán Tóm tắt văn bản.
- Đề xuất hình kết hợp các phương pháp để cải thiện độ chính xác của bài toán.
- Thử nghiệm và đánh giá kết quả trên các phương pháp đã tìm hiểu.
- Kết luận và hướng phát triển.
4. Lời cam đoan của học viên:
Tôi Cao Mạnh Hải cam kết Luận văn tốt nghiệp y công trình nghiên cứu của
bản thân tôi dưới sự hướng dẫn của PGS.TS. Thanh Hương.
Các kết quả nêu trong Luận văn tốt nghiệp trung thực, không phải sao chép
toàn văn của bất kỳ công trình nào khác.
Nội, ngày tháng năm
Tác giả Luận văn tốt nghiệp
5. Xác nhận của giáo viên hướng dẫn v mức độ hoàn thành của Luận văn tốt nghiệp
và cho phép bảo vệ:
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nội, ngày tháng năm
Giáo viên hướng dẫn
PGS.TS. Thanh Hương
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành đến các Thầy, giáo trong viện
Công nghệ thông tin và Truyền thông đã truyền tải không chỉ kiến thức, kỹ năng
còn những nhiệt huyết để em thể vững tâm trong suốt thời gian học tập.
Em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Thanh Hương đã chỉ bảo tận
tình để em thể hoàn thành được Luận văn. Ngoài ra, em xin gửi lời cảm ơn đến
Viện nghiên cứu trí tuệ nhân tạo VinAI đã tạo điều kiện, môi trường sáng tạo cho em
hoàn thành tốt nhiệm vụ Luận văn được giao.
Cuối cùng, em xin gửi lời cảm ơn đến gia đình, và những người bạn luôn ủng hộ
em hết mình trong quá trình hoàn thiện Luận văn.
HỌC VIÊN
TÓM TT NỘI DUNG LUẬN VĂN TỐT NGHIỆP
Mục tiêu của khuôn khổ Luận văn tốt nghiệp giải quyết được bài toán tóm tắt đa
văn bản sử dụng kỹ thuật tóm lược cho ngôn ngữ tiếng Việt. Qua quá trình tìm hiểu cùng
với sự hướng dẫn tận tình của PGS. TS. Thanh Hương, kết quả thu được của luận
văn khả quan. Báo cáo y sẽ trình bày những vấn đề đã tìm hiểu được và quá trình
thực hiện Luận văn tốt nghiệp.
Kết quả của Luận văn tốt nghiệp đã thử nghiệm được các phương pháp trên bộ dữ
liệu "Duc2007" cho hình tóm tắt đa văn bản trích rút và đưa ra được kết quả để so
sánh chất lượng của các phương pháp khác trên thế giới. Ngoài ra, một hình tóm tắt
đa văn bản tóm lược đã được đề xuất cho b dữ liệu tiếng Việt và kết quả thử nghiệm
cho thấy chất lượng của hình đề xuất khả quan trên b dữ liệu của tác giả Trần
Mai Vũ.
Nội dung chính của Luận văn tốt nghiệp trình y các phương pháp để giải quyết
vấn đề trích rút thông tin quan trọng trong tập các văn bản và sau đó tóm tắt lại bằng
những câu từ hoàn toàn mới. Chi tiết Báo cáo luận văn tốt nghiệp sẽ trình bày các vấn
đề sau:
- Chương 1: Mở đầu: đặt vấn đề, giới thiệu bài toán tóm tắt văn bản.
- Chương 2: sở thuyết: trình bày các kiến thức bản đã vận dụng trong luận
văn tốt nghiệp.
- Chương 3: Hướng tiếp cận và hình đề xuất: trình bày các hướng tiếp cận và đề
xuất hình cho bài toán tóm tắt đa văn bản theo hướng tóm lược.
- Chương 4: Cài đặt, thử nghiệm và đánh giá: trình y v dữ liệu thử nghiệm và
đưa ra kết quả của các phương pháp trên b dữ liệu thử nghiệm.
- Chương 5: Kết luận và hướng phát triển: trình bày những đóng góp, những khó
khăn của Luận văn tốt nghiệp. Từ đó đưa ra hướng phát triển cho luận văn tốt nghiệp.
HỌC VIÊN
Mục lục
1 Mở đầu 1
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Bài toán tóm tắt văn bản . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Ý nghĩa thực tiễn của đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Định hướng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4.1 Các nghiên cứu liên quan theo hướng trích rút . . . . . . . . . . . . 4
1.4.2 Các nghiên cứu liên quan theo hướng tóm lược . . . . . . . . . . . . 5
1.4.3 Phương pháp sử dụng trong đề tài . . . . . . . . . . . . . . . . . . 5
2 sở thuyết 7
2.1 thuyết v ngôn ngữ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Tiếng Anh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2 Tiếng Việt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 hình véc hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 hình túi từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 hình túi từ sử dụng lược đồ trọng số TF-IDF . . . . . . . . . . 11
2.2.3 Nhúng từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Phương pháp đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.1 Độ đo Rouge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2 Một số biến thể của độ đo Rouge . . . . . . . . . . . . . . . . . . . 16
2.4 sở thuyết cho hình tóm tắt đa văn bản trích rút . . . . . . . . . . 16
2.4.1 K-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.2 LexRank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.3 Maximal Marginal Relevance (MMR) . . . . . . . . . . . . . . . . . 19
2.4.4 Phương pháp sử dụng độ trung tâm . . . . . . . . . . . . . . . . . . 20
2.5 sở thuyết cho bài toán tóm tắt đơn văn bản tóm lược . . . . . . . . . 21
2.5.1 Mạng nơron hồi quy (Recurrent Neural Network - RNN) . . . . . . 21
2.5.2 Long Short Term Memory (LSTM - Bộ nhớ dài-ngắn hạn) . . . . . 22
2.5.3 hình Sequence to Sequence bản . . . . . . . . . . . . . . . . 25
2.5.4 chế Attention . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5.5 chế Pointing/Copying . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.6 Beam Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3 Hướng tiếp cận và hình đề xuất 31
3.1 hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 hình tóm tắt đa văn bản theo hướng trích rút . . . . . . . . . . . . . . 32
3.2.1 Hướng tiếp cận cho hình tóm tắt đa văn bản trích rút . . . . . 32
3.2.2 K-means sử dụng vị trí tương đối . . . . . . . . . . . . . . . . . . . 33
i
3.2.3 K-means kết hợp vị trí câu trong tài liệu . . . . . . . . . . . . . . . 35
3.2.4 K-means kết hợp MMR và Position . . . . . . . . . . . . . . . . . . 36
3.2.5 K-means kết hợp Centroid-based, MMR và Position . . . . . . . . . 37
3.3 hình tóm tắt đơn văn bản theo hướng tóm lược . . . . . . . . . . . . . 38
3.3.1 Hướng tiếp cận cho hình tóm tắt đơn văn bản tóm lược . . . . . 38
3.3.2 Tận dụng các đặc trưng từ tài liệu đầu vào . . . . . . . . . . . . . . 39
3.4 Quy trình huấn luyện hình tóm tắt đa văn bản theo hướng tóm lược . 41
4 Cài đặt, thử nghiệm và đánh giá 44
4.1 Công cụ và môi trường cài đặt . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Chuẩn bị dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Bộ dữ liệu Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2.2 Bộ dữ liệu Báo mới . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2.3 Bộ dữ liệu của tác giả Trần Mai Vũ . . . . . . . . . . . . . . . . . . 45
4.2.4 Bộ dữ liệu Vims . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3 Tiền xử dữ liệu và đánh giá hình tóm tắt . . . . . . . . . . . . . . . 46
4.4 Đánh giá chất lượng hình . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.1 Kết quả của hình tóm tắt đa văn bản trích rút trên tập dữ liệu
Duc2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.2 Kết quả của tính tóm tắt đa trích rút trên b dữ liệu tiếng Việt 49
4.4.3 Kết quả của hình tóm tắt đơn văn bản tóm lược trên b dữ liệu
Báo mới . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.4 Kết quả của hình tóm tắt đa văn bản tóm lược trên b dữ liệu
200 clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Kết luận và hướng phát triển 53
5.1 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Danh sách bảng
4.1 Kết quả của hình tóm tắt đa văn bản trích rút với bốn kịch bản[19] . . 48
4.2 Kết quả của hình tóm tắt trích rút so với các phương pháp sở[19] . . 48
4.3 Kết quả của một số phương pháp trên thế giới[19] . . . . . . . . . . . . . . 49
4.4 Kết quả của hình tóm tắt đa trích rút trên tập 200 clusters và Vims . . 49
4.5 Kết quả của hình tóm tắt đơn tóm lược trên tập Báo mới . . . . . . . 50
4.6 Kết quả của hình tóm tắt đa văn bản tóm lược trên tập 200 clusters . 50
iii
Danh sách hình v
1.1 Phương pháp sử dụng trong đề tài . . . . . . . . . . . . . . . . . . . . . . 6
2.1 Bag of Words[17] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Bag of Word với trọng số tf-idf[17] . . . . . . . . . . . . . . . . . . . . . . 12
2.3 hình CBOW với một từ trong ngữ cảnh[29] . . . . . . . . . . . . . . . 13
2.4 Kiến trúc CBOW[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Kiến trúc Skip-Gram[29] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Một đơn vị trong RNN[26] . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7 Cấu trúc Cell trong LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.8 Forget gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.9 Input gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.10 Cell state trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.11 Output gate trong LSTM[23] . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.12 hình seq2seq bản (SOS và EOS token bắt đầu và kết thúc)[20] . . 25
2.13 LSTM hai chiều[14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.14 hình seq2seq dựa trên chế attention[20] . . . . . . . . . . . . . . . . 27
2.15 hình sử dụng chế pointer[13] . . . . . . . . . . . . . . . . . . . . . . 29
2.16 Giải thuật Beam Search[28] . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 hình tóm tắt đa văn bản tóm lược . . . . . . . . . . . . . . . . . . . . 32
3.2 hình sở cho bài toán tóm tắt đa trích rút[19] . . . . . . . . . . . . . 33
3.3 hình tóm tắt đa văn bản sử dụng K-means[19] . . . . . . . . . . . . . . 34
3.4 Biểu diễn véc câu sử dụng Word2Vec[17] . . . . . . . . . . . . . . . . . . 34
3.5 hình tóm tắt đa văn bản sử dụng K-means kết hợp Position[19] . . . . 35
3.6 hình tóm tắt đa trích rút sử dụng K-means kết hợp MMR và Position[19] 36
3.7 hình tóm tắt sử dụng K-means kết hợp Centroid-based, MMR và Po-
sition[19] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.8 hình tóm tắt đơn văn bản tóm lược sở . . . . . . . . . . . . . . . . . 39
3.9 hình tóm tắt đơn văn bản tóm lược . . . . . . . . . . . . . . . . . . . . 40
3.10 Quy trình đầy đủ cho bài toán tóm tắt đa văn bản tóm lược . . . . . . . . 41
3.11 Quy trình huấn luyện hình tóm tắt đơn văn bản tóm lược ban đầu . . 41
3.12 Quy trình huấn luyện lại hình tóm tắt đơn văn bản tóm lược . . . . . . 42
3.13 Quy trình đánh giá toàn b hình tóm tắt đa văn bản tóm lược . . . . . 43
iv
Chương 1
Mở đầu
Dữ liệu trên mạng ngày càng ra tăng với một tốc độ chóng mặt theo thời gian. Lượng
dữ liệu quá lớn này trở nên rất khó kiểm soát và y ra những khó khăn cho mọi người
khi tìm đọc những thông tin trên mạng. Mọi người xu hướng tìm đọc những thông tin
ngắn ngọn nhưng vẫn giữ được những ý chính. Nhưng với việc dữ liệu ngày càng gia tăng,
việc con người tự mình tạo ra các bản tóm tắt bất khả thi. vậy, việc tạo ra một
hình tóm tắt văn bản tự động một vấn đề cấp thiết trong cộng đồng nghiên cứu về xử
ngôn ngữ tự nhiên.
1.1 Đặt vấn đề
Tóm tắt văn bản đang hướng nghiên cứu được khá nhiều nhà nghiên cứu quan tâm
và các kết quả về những hình tóm tắt văn bản hiện tại tương đối khả quan. Cùng
với đó, sự phát triển của phần cứng ngày càng mạnh mẽ kết hợp với lượng dữ liệu tăng
lên từng phút làm cho việc giải quyết các bài toán theo hướng tiếp cận máy học càng trở
nên dễ dàng. Đặc biệt với bài toán tóm tắt đa văn bản tóm lược khi việc huấn luyện
một hình đủ tốt đòi hỏi một lượng lớn dữ liệu và yêu cầu tốc độ tính toán nhanh.
do đó, bài toán tóm tắt đa văn bản theo hướng tóm lược đang rất được quan tâm
trong các cộng đồng học thuật trên toàn thế giới.
Song song với đó, hướng nghiên cứu về bài toán tóm tắt văn bản Việt Nam còn
khá ít, đặc biệt bài toán tóm tắt đa văn bản tóm lược. Thấy được những lợi ích và
thực trạng nghiên cứu tại Việt Nam, em quyết định thực hiện việc tìm hiểu và y dựng
chương trình Tóm tắt đa văn bản tóm lược với ngôn ngữ tiếng Việt.
1.2 Bài toán tóm tắt văn bản
Tóm tắt văn bản một bài toán phức tạp được triển khai để biến một tập hợp các
tài liệu thành duy nhất chỉ một tài liệu chỉ chứa những nội dung chính từ tập tài liệu
gốc. Cùng với đó, nếu chỉ tạo ra một bản tóm tắt ngắn và nắm bắt được thông tin quan
trọng của (các) tài liệu gốc không đủ, bản tóm tắt cần phải được tóm tắt lại theo đúng
pháp, đảm bảo được tính trôi chảy và đúng trình tự thời gian như một tài liệu độc
lập.
Bài toán tóm tắt văn bản thường được biết đến với hai hướng chính:
Tóm tắt văn bản trích rút.
1
Tóm tắt văn bản tóm ợc.
Tóm tắt văn bản trích rút
Tóm tắt văn bản trích rút (Extractive text summarization) việc lựa chọn chỉ những
câu mang thông tin quan trọng tài liệu gốc để đưa vào bản tóm tắt. Hướng tiếp cận
y đã xuất hiện rất lâu trước khi lĩnh vực y học phát triển mạnh mẽ như hiện tại,
trong giai đoạn này, chủ yếu các nhà nghiên cứu tập trung vào việc đánh trọng số cho
các câu liên quan đến nội dung chính của tài liệu. Một trong những phương pháp truyền
thông nhưng lại khá hiệu quả thể nhắc đến như: LexRank[4] hay Maximal Marginal
Relevance[2] (MMR).
Cùng với đó, với sự phát triển của các hình học y và học sâu, bài toán tóm tắt
văn bản hướng trích rút thể đưa được v bài toán học giám sát bằng cách trích chọn
ra những đặc trưng từ tài liệu làm đầu vào cho việc huấn luyện các hình hiện đại. Sau
đó, với những thứ đã học được từ tập dữ liệu huấn luyện, hình thể đoán ra câu nào
quan trọng trong một tài liệu mới để sinh ra bản tóm tắt cuối cùng. Một số phương
pháp kinh điển trong cách tiếp cận y: Na¨ıve Bayes[39], Support Vector Machine[40]
(SVM),...
Tóm tắt văn bản tóm lược
Tóm tắt văn bản tóm lược (Asbtractive text summarization) thường được con người
sử dụng, trong đó yêu cầu phải hiểu toàn b nội dung của tài liệu gốc để từ đó thể
viết lại một bản tóm tắt với câu từ hoàn toàn mới. thể nói rằng đây thực sự một
bài toán khó không chỉ đối với các hệ thống y tính còn đối với cả con người. Trước
khi lĩnh vực học y trở nên mạnh mẽ như hiện nay, các nhà nghiên cứu ch yếu tập
trung vào việc chọn và nén nội dung tài liệu gốc để giải quyết bài toán này. Ngoài ra, với
sự phát triển vượt bậc của các hình học sâu cùng với lượng dữ liệu ngày càng lớn, các
hình tóm tắt tóm lược sử dụng các phương pháp học sâu cho thấy những kết quả đầy
hứa hẹn cho nhiệm vụ tóm tắt văn bản theo hướng tóm lược.
Ngoài hai hướng tiếp cận chính này, bài toán tóm tắt văn bản còn được chia thành
hai mảng:
Tóm tắt đơn văn bản.
Tóm tắt đa văn bản.
Tóm tắt đơn văn bản (Single Document Summarization)
Tóm tắt đơn văn bản một bài toán sở trong đó yêu cầu đầu vào chỉ với một tài
liệu duy nhất và đầu ra một bản tóm tắt cho tài liệu đầu vào này. Đầu vào của hình
tóm tắt đơn văn bản không giới hạn, thể một bài báo khoa học, một truyện
ngắn hay thậm chí cả một luận văn tốt nghiệp. Bài toán tóm tắt đơn văn bản một
bài toán đặc biệt quan trọng để làm nền tảng cho việc phát triển các hình tóm tắt đa
văn bản sau này.
Tóm tắt đa văn bản (Multi-Document Summarization)
Bài toán tóm tắt đa văn bản một bài toán nâng cao hơn so với bài toán tóm tắt đơn
văn bản nhưng vẫn được kế thừa các tính chất bản của bài toán tóm tắt. Với những
2
đòi hỏi cao từ bản tóm tắt sinh ra từ hình tóm tắt đa văn bản làm cho bài toán y
trở nên bất khả thi để áp dụng vào thực tế cho đến khi phần cứng y tính, dữ liệu và
các hình học sâu trở nên phát triển như hiện tại.
Khác với tóm tắt đơn văn bản, tóm tắt đa văn bản nhận đầu vào không chỉ một
tài liệu đơn một tập các tài liệu nội dung liên quan đến nhau. Mục tiêu của bài
toán tóm tắt đa văn bản thu gọn tập tài liệu đầu vào này sao cho các nội dung chính
vẫn phải được giữ lại. Ngoài ra, bản tóm tắt của hình tóm tắt đa văn bản cần phải
loại b được những thông tin bị chồng chéo giữa các tài liệu, cần loại b đi những nội
dung thừa và thậm chí còn yêu cầu chính xác về trình tự thời gian.
Do đặc điểm của hướng tóm tắt tóm lược sinh ra một bản tóm tắt gồm những câu
hoàn toàn mới nên bản thân hướng tiếp cận y ràng gặp phải nhiều khó khăn hơn
khi áp dụng cho bài toán tóm tắt đa văn bản. Đối với ngôn ngữ Việt Nam, đây một
ngôn ngữ tương đối phức tạp so với ngôn ngữ phổ biến như tiếng Anh. Bài toán tóm tắt
đa văn bản cho tiếng Việt càng trở nên khó khăn hơn, xong thực tế tại Việt Nam lại chưa
nhiều những nghiên cứu liên quan cũng như b dữ liệu chung cho bài toán này. Nhận
thấy những khó khăn cùng với thực trạng hiện tại, cấp thiết phải những nghiên cứu
cho bài toán Tóm tắt đa văn bản nhằm đáp ứng thực tiễn cũng như để thu hút sự quan
tâm hơn nữa của cộng đồng nhà nghiên cứu về Xử ngôn ngữ tự nhiên tại Việt Nam.
vy, em quyết định lựa chọn đề tài "Tóm tắt đa văn bản tiếng Việt" theo hướng
tóm lược cho định hướng nghiên cứu cho đề tài luận văn tốt nghiệp của mình.
1.3 Ý nghĩa thực tiễn của đề tài
Ngày nay với dữ liệu dạng văn bản đang tăng nhanh với một tốc độ chóng mặt. Dữ
liệu thể đến từ các trang báo, các báo cáo từ các trường học, các nghiên cứu khoa
học,... Cùng với đó, những thông tin thường chồng chéo nhau quá nhiều giữa các văn bản
làm cho việc lưu trữ hay tìm kiếm gặp nhiều khó khăn. Bài toán Tóm tắt văn bản đang
rất được các nhà nghiên cứu quan tâm nhằm giải quyết các vấn đề thực tiễn này.
Tóm tắt văn bản một bài toán quan trọng trong lĩnh vực xử ngôn ngữ tự nhiên,
bài toán thể giúp giảm thiểu thời gian và công sức của con người trong nhiều lĩnh vực
trong đời sống. Một số bài toán thực tiễn thể áp dụng Tóm tắt văn bản thể kể đến
như sau:
Áp dụng Tóm tắt văn bản cho bài toán Phát hiện sao chép: bài toán phát hiện sao
chép sẽ trở nên cùng phức tạp khi khối lượng văn bản trong kho dữ liệu tăng lên.
Khi để kiểm tra xem một văn bản sao chép hay không, ta cần kiểm tra văn
bản đó với toàn b tập văn bản trong tập tài liệu. Việc làm này trở nên không tưởng
khi số văn bản trong kho dữ liệu quá lớn. Để giải quyết vấn đề y, bài toán tóm
tắt văn bản được áp dụng nhằm chọn lọc ra chỉ những thông tin quan trọng trong
văn bản. Bằng việc xác định những văn bản trong kho lưu trữ tương đồng với văn
bản cần kiểm tra trùng lặp thông qua các bản tóm tắt, bài toán Phát hiện sao chép
trở nên khả thi cho dùng lượng văn bản trong kho dữ liệu ngày càng tăng lên.
Áp dụng Tóm tắt văn bản cho bài toán Tổng hợp thông tin: hiện tại rất nhiều
trang báo mạng cùng viết về một sự kiện hay vấn nạn đó, việc tổng hợp các thông
tin từ các trang báo này giúp cho người dùng thể nắm bắt thông tin một các tổng
quát không cần tốn quá nhiều thời gian. Việc tìm đọc và tổng hợp các thông tin
chính từ các trang báo không chỉ đòi hỏi thời gian còn chuyên môn của người
3
tóm tắt. Chính vy, bài toán tóm tắt văn bản được áp dụng để giải quyết vấn đề
y. Lấy một dụ, cùng viết v trận bán kết AFF Cup 2021 giữa Việt Nam và Thái
Lan. Một bài viết v chiến thuật của thầy trò Park Hang-Seo và một bài viết v chiến
thuật của Thái Lan, khi đó bài toán tóm tắt văn bản nhiệm vụ tổng hợp lại cả
chiến thuật của Việt Nam và Thái Lan.
Áp dụng Tóm tắt văn bản cho việc đọc các tin chính trong ngày: mọi người càng ngày
càng bận rộn khiến cho việc tổng hợp các tin mới trong ngày việc bất khả thi. Bằng
cách tóm tắt tự động các tin tức trong ngày, mọi người thể nắm bắt được toàn b
tin mới chỉ trong thời gian ăn sáng.
Ngoài ra, Tóm tắt văn bản còn được áp dụng vào một số bài toán thực tiễn như: tóm
tắt kết quả tìm kiếm trong các b tìm kiếm (search engine), tóm tắt nội dung hội
nghị hoặc cuộc họp, tóm tắt nội dung video hoặc audio, tóm tắt nội dung email,...
Thật vậy, Tóm tắt văn bản sẽ một trong những bài toán quan trọng để giúp
con người tiết kiệm thời gian và công sức dành cho việc đọc hiểu tài liệu. Bài toán tóm
tắt văn bản sẽ càng ngày càng thu hút được nhiều sự quan tâm hơn nữa không chỉ đối với
các nhà nghiên cứu còn thu hút cả các doanh nghiệp. khi lượng dữ liệu ngày
càng tăng lên cùng với việc con người ngày càng bận rộn hơn thì xu hướng cho sự phát
triển của bài toán Tóm tắt văn bản điều không thể tránh khỏi.
1.4 Định hướng
1.4.1 Các nghiên cứu liên quan theo hướng trích rút
Hướng tiếp cận trích rút được khá đông đảo các nhà nghiên cứu tham gia phát triển.
Đa phần trong những nghiên cứu v tóm tắt trích rút đều liên quan đến việc xếp hạng
câu. Những câu xếp hạng càng cao thì càng chứa nhiều thông tin quan trọng cần đưa
vào bản tóm tắt. Các nghiên cứu liên quan đến việc xếp hạng câu thể k đến như:
Trong một xuất bản về tóm tắt văn bản dựa trên ngữ nghĩa mức câu[5], mối quan
hệ về ngữ nghĩa của các từ biểu diễn cùng một vai trò được phát hiện bằng cách sử
dụng WordNet[1].
Với một tài liệu đã được phân tích pháp, nhóm tác giả[6] đã đề xuất một biểu thức
dạng cây để xây dựng một hình xếp hạng câu từ tài liệu đầu vào.
LexRank[4]: nhóm tác giả đã đề xuất việc xây dựng đồ thị trong đó mỗi câu tương
ứng một nút trên đồ thị và cạnh của đồ thị thể hiện mối liên hệ giữa hai câu trong
đồ thị.
Ngoài những cách tiếp cận bằng việc xếp hạng câu, cũng một số hướng tiếp cận
mới lạ khác:
Random: lựa chọn ngẫu nhiên các câu từ tài liệu gốc vào bản tóm tắt cuối cùng.
Lead[3]: phương pháp tóm tắt thực hiện theo hai bước:
+ Bước một: sắp xếp tất cả các câu trong tập tài liệu theo trình tự thời gian.
+ Bước hai: lựa chọn các câu đầu tiên làm đầu ra cho bản tóm tắt.
4
DSDR[7]: phương pháp trong đó lựa chọn các câu từ tập ứng viên bằng cách tái
cấu trúc tuyến tính tập các câu trong tập tài liệu.
PV-DM[8]: phương pháp trong đó hình đi tái cấu trúc các tài liệu bằng các
câu tóm tắt thông qua hình mạng nơron, cuối cùng cố gắng chọn các câu tóm tắt
để giảm thiểu lỗi tái cấu trúc.
PV-DBOW[15]: phương pháp trong đó lựa chọn các câu từ tập ứng viên để cố
gắng cực tiểu hóa lỗi tái cấu trúc giữa đầu ra tóm tắt và các tài liệu.
1.4.2 Các nghiên cứu liên quan theo hướng tóm lược
Với tốc độ phát triển nhanh chóng của các hình học sâu, các nhà nghiên cứu trên
thế giới gần đây xu hướng tập trung hơn vào bài toán tóm tắt văn bản tóm lược
những thách thức bài toán y đặt ra. Với sự xuất hiện của các hình thích hợp
cho các tác vụ liên quan đến xử ngôn ngữ tự nhiên, đặc biệt hình Seq2seq[20],
đã cung cấp một hướng tiếp cận khả thi cho bài toán tóm tắt văn bản theo hướng tóm
lược (nghĩa chúng không bị giới hạn trong việc lựa chọn và sắp xếp lại những đoạn văn
từ văn bản gốc).
Một số phương pháp đã được áp dụng cho bài toán tóm tắt văn bản tóm lược trên
thế giới thể k đến như:
Neural abstractive summarization[9], đã lần đầu tiên áp dụng các hình mạng
nơron hiện đại để tóm tắt văn bản trên b dữ liệu Duc2004 và đạt được hiệu suất
đáng kinh ngạc vào thời điểm đó. Trong đó, nhóm tác giả đã tập trung vào chế
attention và được tăng cường với các b recurrent decoder.
Pointer-generator networks[10], một hình Seq2seq sử dụng phân phối attention
mềm để sinh ra một chuỗi đầu ra bao gồm các từ trong tài liệu đầu vào.
Actor-Critic model[18], sử dụng hai đun Actor và Critic để sinh ra bản tóm
tắt. Trong đó, Actor một hình Seq2seq kết hợp với chế attention và pointing
đóng vai trong như một diễn viên; Critic một hình học tăng cường sử dụng để
nâng cao chất lượng của bản tóm tắt với độ đo Rouge, đóng vai trò như một nhà
phê bình.
1.4.3 Phương pháp sử dụng trong đề tài
Bài toán đa tóm lược một bài toán cần rất nhiều dữ liệu để thể y dựng được
một hình end-to-end. Nhưng để y dựng được b dữ liệu như thế đòi hỏi không chỉ
thời gian còn kiến thức của người tóm tắt. Không chỉ Việt Nam, trên toàn
thế giới chưa hề một b dữ liệu nào đủ lớn để thể y dựng được một hình học
sâu duy nhất cho bài toán tóm tắt đa văn bản tóm lược. Do đó, trong phạm vi đề tài này,
một hình kết hợp của hai bài toán con Tóm tắt đa trích rút và Tóm tắt đơn tóm
lược được đề xuất để giải quyết bài toán tóm tắt đa tóm lược nhằm khắc phục hạn chế
do vấn đề khan hiếm dữ liệu (hình 1.1).
Đầu tiên, một hình tóm tắt đa văn bản trích rút sẽ được đề xuất nhằm biến tập
dữ liệu tóm tắt đa văn bản thành một tập tóm tắt đơn văn bản. Cùng với đó, một
hình tóm tắt đơn văn bản sẽ được y dựng trên một tập dữ liệu đơn tóm lược đủ lớn
(tập dữ liệu đơn tóm lược khá phổ biến). Cuối cùng, bằng cách kết hợp hai hình
5
Tóm tắt đa trích rút và Tóm tắt đơn tóm lược ta sẽ thu được một hình Tóm tắt đa
tóm lược trên một tập dữ liệu hoàn toàn nhỏ. Cụ thể:
hình tóm tắt đa văn bản trích rút: sử dụng thuật toán phân cụm K-means để
gom nhóm những câu cùng đặc điểm. Sau đó, phương pháp tận dụng độ trung tâm
của từ được sử dụng để loại b đi những câu không mang thông tin. Tiếp đó, phương
pháp Maximal Marginal Relevance được sử dụng để loại b sự trùng lặp thông tin
giữa các câu lựa chọn trong bản tóm tắt đầu ra. Cuối cùng, tận dụng đặc trưng vị trí
của các câu trong tài liệu để sắp xếp lại các câu trong bản tóm tắt cuối cùng.
hình tóm tắt đơn văn bản tóm lược: sử dụng hình Sequence to Sequence để
học cách sinh ra bản tóm tắt từ tài liệu đầu vào. Sau đó, chế c ý (attention)
được sử dụng để buộc hình chú ý hơn vào những từ quan trọng từ tài liệu đầu
vào. Tiếp đó, chế sao chép (pointing) được sử dụng để sao chép những từ không
thuộc tập từ điển trong tài liệu đầu cho bản tóm tắt đầu ra. Cuối cùng bằng việc tận
dụng các đặc trưng quan trọng của văn bản đầu vào để làm tăng tính hiệu quả của
chế Attention.
Trong nội dung báo cáo Luận văn y, đầu tiên phần sở thuyết sẽ được trình
y trong chương 2 để phục vụ cho quá trình đề xuất các hình tóm tắt văn bản trong
chương 3. Tiếp theo, các tập dữ liệu sử dụng để đánh giá chất lượng hình và các
kết quả của các thí nghiệm sẽ được trình y trong chương 4. Cuối cùng, để kết luận lại
những đã và chưa làm được trong phạm vi đề tài này sẽ được trình y chương 5.
Hình 1.1: Phương pháp sử dụng trong đề tài
6
Chương 2
sở thuyết
Các nền tảng thuyết đặc biệt quan trọng để thể y dựng nên các hình
hiện đại phục vụ cho các nhiệm vụ xử ngôn ngữ tự nhiên. Dưới đây một số sở
thuyết bản để xây dựng nên hình tóm tắt văn bản trong phạm vi luận văn tốt
nghiệp.
2.1 thuyết v ngôn ngữ
Trong lĩnh vực xử ngôn ngữ tự nhiên, nhiệm vụ Tiền xử dữ liệu một bài toán
vô cùng quan trọng nhằm nâng cao chất lượng của các hình y học. Việc tận dụng
những hiểu biết v mặt ngôn ngữ học nhằm xử các ngôn ngữ cụ thể cùng quan
trọng trong những bài toán v xử ngôn ngữ. Trong phạm vi luận văn này, sở
thuyết cho tiếng Anh và tiếng Việt sẽ được trình bày để thấy được sự khác nhau trong
việc tiền xử đầu vào cho dữ liệu của hai ngôn ngữ.
2.1.1 Tiếng Anh
Tiếng Anh bản ngữ lớn thứ ba trên thế giới, sau tiếng Trung Quốc và tiếng Tây Ban
Nha. Đây ngôn ngữ thứ hai được học nhiều nhất và ngôn ngữ chính thức của gần
60 quốc gia chủ quyền. Ngôn ngữ y số người nói như ngôn ngữ thứ hai và ngoại
ngữ lớn hơn số người bản ngữ. Ngoài ra, đây cũng ngôn ngữ đồng chính thức của Liên
Hợp Quốc, của Liên minh châu Âu và của nhiều tổ chức quốc tế và khu vực khác[42].
Tiếng Anh ngôn ngữ biến hình (hòa kết), loại hình ngôn ngữ xảy ra hiện tượng
biến đổi từ trong hình vị (là đơn vị ngữ pháp nhỏ nhất nghĩa của một ngôn ngữ), sự
biến đổi này mang ý nghĩa ngữ pháp. dụ: person (người) -> people (mọi người)
Do đó, ý nghĩa từ vựng và ý nghĩa ngữ pháp được dung hợp trong từ nhưng không
thể tách bạch phần nào biểu thị ý nghĩa của từ vựng, phần nào biểu thị ý nghĩa của ngữ
pháp[22]. Từ đó, những ngôn ngữ mang loại hình đặc điểm này được gọi ngôn ngữ
biến hình.
Để cái nhìn hơn v ngôn ngữ tiếng Anh, việc trình bày một số đặc điểm của
ngôn ngữ biến hình cần thiết:
Ngôn ngữ biến hình bao gồm các phụ tố (biểu hiện ý nghĩa của ngữ pháp), các phụ
tố y thể đồng thời mang nhiều ý nghĩa hoặc các phụ tố khác nhau nhưng vẫn
mang cùng một ý nghĩa.
+ dụ 1: paint -> painter (-er phụ tố).
7