
nghiệp hiểu biết hơn về khách hàng của họ để đưa ra các chiến lược kinh doanh hiệu quả hoặc tự động hóa các
quá trình làm việc giúp tăng năng suất lao động. Cụ thể hơn, theo báo cáo của trung tâm BCS [1] chúng ta đang
tạo ra 1 quintillion (10
18
) byte dữ liệu mỗi ngày và con số này sẽ tăng gấp đôi mỗi năm. Cũng trong báo cáo
trên, việc áp dụng các kỹ thuật phân tích dữ liệu giúp các công ty tăng 33% lợi nhuận. Học máy là một trong
những kỹ thuật phân tích dữ liệu được áp dụng để khai phá các mẫu ẩn trong dữ liệu đã thu thập được. Phương
pháp này được sử dụng phổ biến trong các bài toàn phân loại như phân loại bệnh nhân dựa vào cấu trúc gen,
phân loại ý định câu hỏi của khách hàng trong ứng dụng Chatbot hay các bài toán dự đoán giá nhà đất của một
khu vực. Tuy nhiên, các thuật toán học máy truyền thống hiện nay đang gặp vấn đề là khó thích nghi hoặc thậm
chí là không hoạt động được đối với BigData. Một số thuật toán cần phải lưu trữ dữ liệu trong bộ nh ớ của máy
khi huấn luyện, điều này là không khả thi trong thực tế khi dữ liệu rất lớn hoặc không có sẵn tại một thời điểm
mà đến liên tục (streaming data). Một số khác mặc dù có hiệu quả tốt nhưng thời gian huấn luyện rất lâu khiến
chúng không khả thi trong các hệ thống thời gian thực (real-time) khi liên tục phải huấn luyện lại mô hình.
Để giải quyết những vấn đề kể trên của học máy, các nhà nghiên cứu đã giành nhiều sự quan tâm cho lĩnh
vực có tên gọi là học máy trực tuyến (Online Learning) trong những năm gần đây. Học máy trực tuyến là một
kỹ thuật học quan trọng, trong đó các mô hình học có thể được cập nhật theo thời gian khi dữ liệu mới đến mà
không cần phải học lại toàn bộ tập dữ liệu cũ. Đặc tính này rất phù hợp cho các ứng dụng mà dữ liệu đến liên
tục theo luồng như các giao dịch trong hệ thống chứng khoán hoặc các bộ phân tích dữ liệu nhận được từ cảm
biến môi trường.
Trong luận văn này, tác giả sẽ tập trung giới thiệu về học máy trực tuyến cho bài toán học có giám sát, quy
trình thực hiện của một thuật toán học trực tuyến, phân loại và một số thuật toán học trực tuyến nổi bật đã được
đề xuất. Ngoài ra, tác giả cũng sẽ giới thiệu về hai thuật toán học trực tuyến mới (dựa trên lý thuyết Bayes và
thuật toán phân loại cây Hoeffding) là công tr ình nghiên cứu của tác giả và đồng nghiệp. Hai thuật toán này đã
đạt được các kết quả rất tốt khi so sánh với các thuật toán học trực tuyến hiện có.
1.2 Cấu trúc luận văn
Nội dung luận văn được chia làm 5 chương, trong đó chương 1 nhằm giới thiệu về bài toán, các vấn đề còn
tồn tại. Sau đó, tác giả tiến hành mô tả tổng quan về học máy trực tuyến cùng với các phương pháp nổi bật hiện
nay trong Chương 2. Chương 3 và Chương 4 tác giả mô tả 2 phương pháp học trực tuyến mới mà tác giả và
đồng nghiệp đề xuất (đã được công bố tại hội nghị DICTA 2016 và 2017). Cuối cùng, tác giả sẽ mô tả các kết
quả thử nghiệm và đánh giá của hai mô hình với các thuật toán học máy trực tuyến hiện nay cùng với các kết
luận và hướng phát tr iển tiếp theo trong Chương 5.
1.3 Các ký hiệu toán học
Trước khi đi sâu vào phân tích các thuật toán học máy trực tuyến trong Chương 2, tác giả định nghĩa các ký
hiệu toán học trong các công thức theo bảng sau:
Học viên: Phạm Xuân Cường CB160558 Khóa 2016B Lớp CH KHMT 10