phải thỏa mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực
như marketing có chủ đích, phân tích quyết định, quản lí kinh doanh,…
1.3 Lợi thế của khai phá dữ liệu so với các phương pháp khác
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học
khác như: hệ CSDL, thống kê,... Hơn nữa, tuỳ vào cách tiếp cận được sử
dụng, khai phá dữ liệu còn có thể áp dụng một số kĩ thuật như mạng nơ ron,
lí thuyết tập thô hoặc tập mờ, biểu diễn tri thức… Như vậy, khai phá dữ liệu
thực ra là dựa trên các phương pháp cơ bản đã biết. Tuy nhiên, sự khác biệt
của khai phá dữ liệu so với các phương pháp đó là gì? Tại sao khai phá dữ
liệu lại có ưu thế hơn hẳn các phương pháp cũ? Ta sẽ lần lượt xem xét và giải
quyết các câu hỏi này.
1.3.1 Học máy (Machine Learning)
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ,
khai phá dữ liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy
đủ, bị nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình.
Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL
đầy đủ, ít biến động và tập dữ liệu không quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một
tập các mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố
định, thông tin về đặc điểm, dãy các giá trị của chúng đôi khi cũng được lưu
lại như trong từ điển dữ liệu. Một thuật toán học sử dụng tập dữ liệu và các
thông tin kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của
việc học. Học máy có khả năng áp dụng cho cơ sở dữ liệu, lúc này, học máy
sẽ không phải là học trên tập các mẫu nữa mà học trên tập các bản ghi của
cơ sở dữ liệu. Tuy nhiên, trong thực tế, cơ sở dữ liệu thường động, không
đầy đủ và bị nhiễu, lớn hơn nhiều so với các tập
dữ liệu học máy điển hình.
Các yếu tố này làm cho hầu hết các thuật toán học máy trở nên không hiệu
quả. Khai phá dữ liệu lúc này sẽ xử lý các vấn đề vốn đã điển hình trong học