1
TÓM TẮT LUẬN VĂN THẠC SĨ
Đề tài: Ứng dụng mô hình ngôn ngữ cho bài toán nhận dạng chữ viết tay.
Tác giả luận văn: Nguyễn Thái Bình Khóa: 2018B
Người hướng dẫn: TS. Nguyễn Bình Minh.
Từ khóa (Keyword): Nhận dạng tự quang học, nhận dạng chữ viết tay, hình
ngôn ngữ, seq2seq, học máy, deep learning.
Nội dung tóm tắt:
a) Lý do chọn đề tài
Nhận dạngtự quang học (OCR) là một lĩnh vực nghiên cứu quan trọng, có tính
ứng dụng cao trong hầu hết các lĩnh vực ngành nghề, giúp tiết kiệm công sức lao
động. Với OCR, một lượng lớn các tài liệu giấy được số hoá, không chỉ giúp lưu trữ
hiệu quả mà còn giúp dữ liệu có thể được truy cập, tiếp cận dễ dàng hơn.
b) Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu.
- Mục đích nghiên cứu: nghiên cứu phương pháp cải thiện chất lượng mô hình nhận
dạng chữ viết tay.
- Đối tượng nghiên cứu: sự kết hợp giữa xử lý ảnh truyền thống trong nhận dạng
tự quang học và mô hình ngôn ngữ để suy luận những thông tin còn thiếu từ đầu ra
của nhận dạng ký tự.
- Phạm vi nghiên cứu nhận dạng chữ viết tay tiếng Việt với tập dữ liệu là địa chỉ các
nơi ở Việt Nam.
c) Tóm tắt cô đọng các nội dung chính và đóng góp mới của tác giả
- Xây dựng tập dữ liệu cho nhận dạng chữ viết tay. Do giới hạn về nguồn lực, đồ án
sẽ tập trung xử lý dữ liệu chữ viết tay cho địa chỉ ở Việt Nam. Dữ liệu sẽ được thu
thập từ hai nguồn là dữ liệu thực do người viết và dữ liệu sinh từ font máy tính.
- Xây dựng hình nhận dạng chữ viết tay tiếng Việt. Đồ án sẽ xoay quanh việc thử
nghiệm các cách kết hợp giữa mô hình xử lý ảnh hình ngôn ngữ, so sánh với
các kỹ thuật trong OCR truyền thống đề xuất mô hình giải quyết bài toán nhận
dạng chữ viết tay với dữ liệu chữ viết tay địa chỉ.
d) Phương pháp nghiên cứu.
2
Khảo sát các phương pháp nhận dạng tự quang học nói chung nhận dạng chữ
viết tay nói riêng, từ đó đưa ra các ưu, nhược điểm của phương pháp truyền thống.
Kết hợp các đặc trưng của tiếng Việt để đưa ra giải pháp giúp cải thiện chất lượng
của mô hình nhận dạng.
e) Kết luận
!Nghiên!cứu!nhận!dạng!chữ!viết!tay!có!ý!nghĩa!rất!lớn!trong!việc!số!hoá!dữ!
liệu,!đặc!biệt!với!những!n gôn!ngữ!thiểu!số!như!tiếng!Việt.!Không!có!một!bộ!dữ!liệu!
chuẩn!trong!nhận!dạng!chữ!viết!tay!tiếng!Việt!làm!hạn!chế!các!nhà!n ghiên!cứu!
thực!hiện!cải!thiện!chất!lượ ng!nhận!dạng.!Đồ!án!này!đã!ghóp!một!phần!vào!việc!
xây!dựng!bộ!dữ!liệu!chữ!viết!tay! tiếng!Việt.!Nghiên!cứu!đồng! thời!đã!đề!xuất!giải!
pháp!tăng!độ!chính!xác!cho!việc!nhận!dạng!bằng!cách!ứng!dụng!m ô!hình!ngôn!ngữ!
vào!cùng!với!mô!hình!nhận!dạng.!Kết!quả!thực!nghiệm!đã!chứng!minh!mô!hình!
ngôn!ngữ!giúp!làm!tăng!độ!chính!xác!lên!đáng!kể.!!
Việc!áp!dụng!mô!hình!này!không!bị!giới!hạn!ở!tiếng!Việt!mà!có!thể!tiến!hành!
ở!bất!kỳ!ngôn!ngữ!nào,!miễn!là!có!tập!ngữ!liệu!để!huấn!luyện!cho!mô!hình!ngôn!
ngữ.!Mô!hình!ngôn!ngữ!được!thêm!vào!tuy!giúp!làm!tăng!độ!chính!xác!của!mô!
hình!nhận!dạng!nhưng!đồng!thờ i!cũng!hạn!chế!mô!hình!nhận!dạng!do!vấn!đề!về!
mặt!ngữ!nghĩa!rất!quan!trọng!với!mô!hình!ngôn!ngữ,!nếu!đầu!vào!là!một!ảnh!có!
nội! dung!ngẫu!nhiên,!việc!áp!dụng!mô!hình!ngôn!ngữ!có!khả!năng!làm!giảm!chất!
lượng!của!mô!hình!nhận!dạng.!Nên!việc!áp!dụng!mô!hình!ngôn!ngữ!cũng!phải!cân!
nhắc!phù!hợp!cho!từng!trường!hợp.!
Hướng!nghiên!cứu!tiếp!theo!sẽ!tìm!cách!cải!thiện!vấn!đề!ảnh!hưởng!xấu!của!
mô!hình!ngôn!ngữ!tới!nhận!dạng!văn!bản!không!mang!tính!ngữ!nghĩa!như!một!
dạng!hybrid!giữa!mô!hình!nhận!dạng!và!mô!hình!ngôn!ngữ!để!áp!dụng!mô!hình!
ngôn!ngữ!vào!một!phần!nào!đó!của!kết!quả!nhận!dang.!!
Nhận!dạng!chữ!viết!tay!là!một!bài!toán!khó.!Tuy!gần!đây!đã!có!những!tiến!bộ!
rất!đáng!kể!trong!việc!cải!thiện!độ!chính!xác!nhận!dạng !nhưng!đây!vẫn!là!một!
trong!số!những!vấn!đề!cần!nhiều!lỗ!lực!nghiên!cứu,!nếu!thành!công!nó!sẽ!mở!ra!
một!hướng!mới!trong!việc!máy!tính!có!thể!tiếp!cận!với!tri!thức!của!con!người.