sức khoẻ từ đó có thể khai thác giải quyết các bài toán khó trong dự đoán, điều
tr ị bệnh.
Lợi ích của OCR được thể hiện qua các điểm:
• Khả năng tìm kiếm: Khi các văn bản giấy được số hoá, có thể dễ dàng lưu trữ
dưới dạng tệp tài liệu thông dụng như word, pdf, txt. Những file này có thể được
tìm kiếm sử dụng những trình tìm kiếm thông dụng.
• Khả năng chỉnh sửa: Đôi khi những văn bản giấy cần được chỉnh sửa nội dung,
khi đã được số hoá, việc này trở nên rất đơn giản.
• Khả năng truy cập: khi tài liệu được số hoá bởi OCR và lưu trữ trong các cơ sở
dữ liệu, nó có thể được truy cập từ mọi nơi.
• Khả năng lưu trữ, sao lưu: Số hoá tài liệu giúp giảm không gian lưu trữ cho cùng
một loại thông tin. Đồng thời cũng dễ dàng được sao lưu, khôi phục trong trường
hợp bị mất.
• Khả năng dịch: một hệ thống OCR có thể số hoá nhanh các tài liệu giấy, khi kết
hợp với hệ thống dịch thuật, một văn bản ở một ngôn ngữ có thể được chuyển
sang một ngôn ngữ bất kỳ.
Hiện nay nhận dạng ký tự Latin đánh máy được xem là bài toán đã được giải quyết,
tỷ lệ chính xác thực tế đã đạt hơn 99% (một số ứng dụng đòi hỏi tỷ lệ chính xác cao
vẫn cần có con người kiểm tra lại lỗi). Với chữ viết tay, đây vẫn là đề tài cần nhiều
nghiên cứu. Độ chính xác nhận dạng với văn bản chữ viết tay hiện nay còn khá thấp
từ 80% tới 90% chủ yếu là do tính đa dạng trong cách viết và chất lượng của văn
bản scan. Với những ngôn ngữ phổ biến, có nhiều dữ liệu như tiếng Anh, tiếng Nhật,
chất lượng nhận dạng chữ viết tay có thể cao hơn tới 98%, tuy nhiên với những ngôn
ngữ không phổ biến như tiếng Việt, bài toán nhận dạng chữ viết tay vẫn còn rất nhiều
thách thức, chủ yếu là do lượng dữ liệu còn hạn chế từ đó ít được giới nghiên cứu quan
tâm.
13