BỘ GIÁO DỤC VÀ ĐÀO ĐẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN TIẾN TUỆ
MỘT SỐ THUẬT TOÁN PHÂN CỤM MỜ
VÀ ỨNG DỤNG PHÂN CỤM WEBSITE
LUẬN VĂN THẠC SĨ KHOA HỌC
CHUYÊN NGÀNH: ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH
HỆ THỐNG TÍNH TOÁN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TSKH Bùi Công Cường
Hà Nội, Năm 2010
1
LỜI CẢM ƠN
Nhân dịp hoàn thành khóa luận tốt nghiệp, cho phép tôi được bày tỏ lòng tri
ân tới toàn thể quý thầy, giáo của trường ĐHBKHN nói chung, các thầy
giáo Khoa Toán Tin Ứng dụng Trường ĐHBKHN, những người thầy đang
công tác tại Viện Toán học, Viện CNTT nói riêng đã truyền thụ các kiến thức
cho tôi trong những năm học nhân gắn bó với ngôi trường.
Tôi xin bày tỏ lòng cảm ơn sâu sắc đến PGS.TSKH Bùi Công Cường người
thầy đã trực tiếp hướng dẫn, chỉ bảo tận tình tạo mọi điều kiện cho tôi trong
suốt quá trình nghiên cứu và thực hiện luận văn.
Tôi xin gửi lời cảm ơn tới các đồng chí trong Ban Giám đốc Công an tỉnh
Hải Dương, các đồng chí Lãnh đạo Văn Phòng Công an tỉnh cùng toàn thể các
đồng chí trong đội Viễn thông Tin học, Chuyên đề, Pháp chế,…đã đã kịp thời
động viên, khích lệ, tạo điều kiện thuận lợi để tôi điều kiện nghiên cứu, tham
gia khóa học này.
Cuối cùng, tôi xin gửi lời cảm ơn chân thành nhất tới gia đình, người thân
bạn bè, những người đã luôn sát cánh, động viên, chia sẻ giúp đỡ tôi trong
suốt những chặng đường đã qua.
Xin trân trọng cảm ơn!
Tác giả
Nguyễn Tiến Tuệ
2
MỞ ĐẦU
1.
Lý do chọn đề tài
Trước bối cảnh hội nhập toàn cầu, thế giới ngày càng phẳng”, đặc biệt
sự bùng nổ của WWW, lượng thông tin đến với mỗi tổ chức, nhân rất lớn.
Việc xử khai thác các thông tin một cách hiệu quả một yêu cầu bức
thiết.
Cũng khá tự nhiên khi một ngành khoa học: K thut phát hiện tri thức
khai phá dữ liu (KDD - Knowledge Discovery and Data Mining) ra đời
nhằm giải quyết các bài toán trên. Bước quan trọng nht của quá trình này
Khai phá d liu (Data Mining - DM), giúp người sử dụng thu được nhng
tri thức hu ích t những CSDL hoặc các nguồn d liu khổng lồ khác.
Nhưng để làm được điu đó, sự phát trin của các hình toán học các
thuật toán hiu quả, đặc biệt các thuật toán phân cụm chìa khoá vô cùng
quan trọng. Trong nhiều năm qua, các nhà khoa học trên thế giới cũng như
Việt Nam đã đầu nghiên cứu kết quả đã cho ra nhiều thuật toán hiệu quả
để giải quyết bài toán trên...vậy, việc tìm hiểu ứng dụng các thuật toán
phân cụm vào thực tế là một vấn đề rất được quan tâm.
Đó chính là lý do nhân tôi chọn đề tài: Một số thuật toán phân cụm mvà
ứng dụng trong phân cụm Website.
2. Lịch sử nghiên cứu.
Hiện nay, chúng ta đang sống trong tình trạng giàu về dữ liệu, nghèo về
thông tin”. Việc nghiên cứu, phát triển ứng dụng các thuật toán phân cụm
điều đang rất được quan tâm. Trên thế giới việc nghiên cứu để giải quyết bài
toán này đã đi được một quãng đường khá xa, tuy nhiên trong nước nó mới được
quan tâm trong vài năm gần đây. Hiện nay, một số trường đại học như: ĐH Bách
Khoa, ĐH Công nghệ, ĐH Quốc gia,...vấn đề trên đã được đưa vào giảng dạy
cũng khá nhiều đề tài đề cập đến vấn đề phân cụm; phân cụm mờ ứng
dụng. Tuy nhiên việc ứng dụng thuật toán phân cụm mờ cùng một số hướng mới
cải tiến giải thuật phân cụm ứng dụng phân cụm website cả 2 chế độ sử
dụng Mathematica thì chưa có đề tài nào đề cập.
3
3. Mục đích, đối tượng, phạm vi nghiên cứu của luận văn
- Mục đích nghiên cứu: Đề tài sẽ đi tìm hiểu nghiên cứu một số
thuật toán phân cụm dữ liệu, dữ liệu mờ nhằm tiến hành phân cụm
Website.
- Đối tượng nghiên cứu: Một số giải thuật phân cụm các Website
- Phạm vi nghiên cứu: Đề tài nghiên cứu tập trung vào giải thuật
FCM các Website 2 chế độ Online Off line
4. Phương pháp nghiên cứu
- Phân tích tổng hợp nghiên cứu hệ thống.
- Phân tích tài liệu.
- Thực nghiệm.
-..........................
5. Cấu trúc luận văn
Ngoài các phần Mở đầu, Mục lục, Kết lun, i liệu tham kho,... lun văn
đưc chia làm 4 chương:
Chương I - Tổng quan v Phát hiện tri thức và Khai phá dữ liệu
Phn này giới thiu mt cách tổng quát về quá trình phát hin tri thc i
chung khai phá d liu nói riêng. Đặc bit nhấn mnh v 2 kỹ thuật chính
đó là kỹ thut phân loi k thut phân cm.
Chương II – Một số thuật toán Phân cụm dữ liệu
Trình bày những khái niệm cơ bản nhất về phân cụm dữ liệu cũng như các
bước xây dựng hình cho bài toán phân cụm, đồng thời trình bày một số
thuật toán tiêu biểu trong PCDL chẳng hạn: BSAS, c-means,....đây là cơ sở, nền
tảng để ta nghiên cứu, mở rộng thuật toán phân cụm trong chương sau.
Chương III Phân cụm mờ
Với mong muốn“mềm dẻo” hơn trong quá trình tính toán, trong chương này
sẽ đi sâu vào các bài toán Phân cụm mcùng một số chứng minh tính đúng đắn
của chúng. Sau đó là thuật toán cho bài toán này.
4
Chương IVỨng dụng Phân cụm mờ trong phân cụm Website
Phân cụm website đang bài toán thu hút được sự quan tâm của nhiều nhà
khoa học, phần này trong khuôn khổ luận văn sẽ đi tiến hành từng bước qúa
trình thu thập, xử các trang Web, tìm kiếm các đặc trưng của chúng, sau đó
tiến hành phân cụm tập các kết quả đã tìm được dựa vào thuật toán trình bày
trong chương 3.
Cuối cùng 1 phụ lục, sẽ giới thiệu qua về Ngôn ngữ lập trình
Mathematica đây ngôn ngữ được sử dụng để lập trình trong luận văn, đồng
thời trong phần y trình bày các đoạn Code hoàn thiện thực hiện thuật toán: C-
means; FCM; tìm kiếm đặc trưng các Website và tiến hành phân cụm.
5
Chương 1 - TNG QUAN PT HIỆN TRI THỨC VÀ KPDL
1.1
Giới thiệu chung
Trong những năm gn đây, s phát trin mạnh mẽ ca CNTT
ngành công nghip phn cứng đã làm cho kh năng thu thp lưu tr thông
tin ca các h thống thông tin ng nhanh một cách đáng kể. Bên cnh đó vic
tin học hoá một cách t và nhanh chóng các hoạt động sản xut, kinh doanh
cũng như nhiu lĩnh vc hot động khác đã to ra cho chúng ta một ng d
liu lưu trữ khổng lồ. Hàng triệu CSDL đã được sử dụng trong c hot động
sn xut, kinh doanh, quản lí..., trong đó nhiu CSDL cực ln cỡ
Gigabyte, thm c là Terabyte. Sự bùng n y đã dẫn tới một yêu cầu cấp
thiết cn những thut công c mới đ tự
động chuyn đổi lượng
dữ liu khổng lồ kia thành các tri thức ích. Từ đó, các thut khai phá dữ
liu đã tr thành một nh vực thời sca nn CNTT thế giới hin nay.
1.1.1 Khái niệm khai phá d liệu
Khai phá dữ liu (Data Mining) một khái nim ra đời vào nhng
năm cuối ca thp kỷ 1980. quá trình trích xut các thông tin giá trị
tim n bên trong lượng ln d liu được lưu tr trong c CSDL, kho dữ
liệu... Hiện nay, ngoài thut ng khai phá d liu, người ta n dùng một s
thut ngữ khác ý nghĩa tương tự như: khai phá tri thức t CSDL, trích lc
dữ liệu, phân tích dữ liu/mu, kho c d liu, no vét d liu. Nhiu người
coi Khai phá d liu và một thuật ngữ thông dụng khác Phát hiện tri thức
trong CSDL (Knowlegde Discovery in Databases - KDD) như nhau. Tuy
nhiên trên thc tế, khai phá dliệu chỉ mt bước thiết yếu trong quá trình
Phát hi
n tri thức trong CSDL. Có th nói Data Mining giai đon quan
trng nht trong tiến trình Phát hiện tri thức từ cơ s dữ liu, các tri thức này
hỗ trợ trong việc ra quyết định trong khoa học kinh doanh.
1.1.2 Các bước của quá trình phát hin tri thc
Quá trình phát hiện tri thức tiến hành qua 6 giai đon như hình 1.1:
6
Hình 1.1: Quá trình phát hiện tri thức
Bắt đu của quá trình kho dữ liu thô kết thúc với tri thức
được chiết xut ra. V thuyết thì vẻ rt đơn gin nhưng thực s đây
một quá trình rt khó kn gp phải rt nhiu vướng mắc như: quản các tập
d liu, phi lp đi lp lại toàn bộ quá trình, v.v...
(1) Gom d liu: Tập hp d liệu là bước đầu tiên trong quá trình khai
phá dữ liu. Đây bước được khai thác trong một cơ s dữ liu, một kho dữ
liu và thậm chí các dữ liu từ các nguồn ứng dng Web.
(2) Trích lọc d liu: giai đon này d liu được lựa chọn hoc phân
chia theo một s tiêu chun nào đó phục v mục đích khai thác, dụ chn
tt cả những người có tuổi đời từ 25 - 35 và có trình độ đại học.
(3) Làm sạch, tiền x chuẩn bị tc d liu: Giai đon th ba này
là giai đon hay bị sao lãng, nng thực tế một bước rt quan trọng trong
quá trình khai phá dữ liu. Một s lỗi thường mắc phi trong khi gom d liệu
tính không đủ chặt chẽ, logíc. vậy, dữ liệu thường chứa các giá trị
nghĩa không kh năng kết nối d liu. dụ: tuổi = 673. Giai đon này
s tiến hành xử nhng dạng dữ liu không cht ch nói trên. Những dữ liu
7
dng này được xem như thông tin tha, không giá trị. Bởi vy, đây
một quá trình rt quan trọng dữ liu này nếu không đưc “làm sạch -
tin xử - chun bị trước” thì sẽ gây nên nhng kết qu sai lch nghiêm
trọng.
(4) Chuyển đổi d liu: Tiếp theo giai đon chuyn đổi dữ liu, d
liu đưa ra th s dụng điu khin được bởi việc tổ chức li nó, tức
dữ liu s được chuyn đổi về dng phù hợp cho việc khai phá bng cách thực
hin các thao tác nhóm hoặc tp hp.
(5) Khai phá d liu: Đây bước mang tính tư duy trong khai phá d
liu. giai đon này nhiu thut toán khác nhau đã được s dụng để trích ra
các mẫu từ dữ liệu. Thut toán thường dùng nguyên tc phân loi, nguyên
tắc kết, v.v...
(6) Đánh giá các luật biu din tri thc: giai đon này, các mẫu
dữ liu được chiết xut ra bởi phn mềm khai phá dữ liu. Không phải bt c
mẫu dữ liu nào cũng đều hu ích, đôi khi còn b sai lệch. vy, cn phi
ưu tiên những tiêu chun đánh giá để chiết xuất ra các tri thc (Knowlege)
cn chiết xut ra. Đánh giá sự hữu ích của các mu biu din tri thức dựa trên
một s phép đo. Sau đó sử dụng các kỹ thut trình din và trc quan hoá dữ
liu để biu diễn tri thức khai phá được cho người s dụng.
Trên đây 6 giai đon của quá trình phát hin tri thức, trong đó giai đon
5 - khai phá dữ liu (hay còn gọi đó Data Mining) giai đoạn đưc quan
tâm nhiu nhất.
1.2 Các kỹ thuật khai phá dữ liu
Hình 1.2 biểu din mt tp dữ liu gi hai chiu bao gồm 23 case
(trường hợp). Mỗi một điểm trên hình đại din cho một người vay tiền ngân
hàng tại mt s thời đim trong quá khứ. Dữ liu được phân loi vào hai
lớp: những người không kh năng tr nợ nhng người tình trạng vay nợ
đang trạng thái tốt tức là ti thời điểm đó khnăng trnợ ngân hàng).
Hai mục đích chính của khai phá dữ liu trong thực tế là dự đoán tả.
8
Hình 1.2: Tập dữ liệu vi 2 lp: không khả năng tr nợ
1.2.1 Khai phá dữ liệu dự đoán
Nhiệm vụ ca khai phá d liu dự đoán đưa ra các dự đoán da vào
các suy diễn trên d liu hin thời. sử dụng các biến hay các trường trong
cơ sdữ liu để dự đoán các giá trị không biết hay các giá trị tương lai. Bao
gm các kĩ thut: phân loi (classification), hồi quy (regression)...
1.2.1.1 Phân loại
Mục tiêu của phương pháp phân loi d liu dự đoán nhãn lp cho
các mẫu d liệu. Quá trình phân loi d liu thường gm 2 bước: xây dng
hình và s dụng hình đphân loại dữ liu.
- Bước 1: Xây dựng hình dựa trên việc phân ch các mẫu d liu cho
trước. Mi mẫu thuộc v một lớp, được xác định bởi một thuộc tính gọi
thuộc tính lp. Các mẫu dữ liu này còn được gọi tập dữ liu hun luyn.
Các nhãn lớp ca tập dữ liu hun luyn đều phi được c định trước khi
xây dựng mô hình, vy pơng pháp này còn được gọi là học giámt.
- Bước 2: Sử dụng hình để phân loại d liu. Trước hết chúng ta
phi tính độ chính xác của nh. Nếu độ chính xác chp nhn đưc,
hình sđược s dụng để dự đoán nhãn lớp cho các mu d liệu khác trong
tương lai.
Hay nói cách khác, phân loại học mt hàm ánh x mt mục dữ liu
vào một trong s các lớp cho trước. Hình 1.3 cho thấy sự phân loi của các
9
dữ liu vay nợ vào trong hai min lớp. Ngân hàng th s dụng các min
phân loại đtự động quyết định liu nhng người vay n trong tương lai
nên cho vay hay không.
Hình 1.3: Phân loi dữ liệu cho tập dữ liệu cho vay
1.2.1.2 Hồi quy
Phương pháp hồi qui khác với phân loi dữ liu chỗ, hồi qui dùng để
dự đoán v các giá trị liên tục còn phân loi dữ liu thì ch dùng để dự đoán
v các giá tr ri rạc.
Hồi quy học một m ánh x một mục dữ liu vào một biến d báo
giá trị thực. Các ứng dụng hồi quy nhiu, dụ n đánh giá xác xut một
bệnh nhân sẽ chết dựa trên tp kết qu xét nghiệm chẩn đoán, d báo nhu
cầu của người tiêu dùng đối vi một sn phn mới dựa trên hot động
quảng cáo tiêu dùng.
1.2.2 Khai phá dliệu mô tả
K thut này nhim vụ mô t v cácnh cht hoc c đặc tính
chung ca d liệu trong CSDL hin . Bao gồm các kỹ thut: phân cm
(clustering), phân tích luật kết hợp (association rules)...
1.2.2.1 Phân cm
Mục tiêu chính của phương pháp phân cụm dữ liu nhóm các đối
tượng tương t nhau trong tập dữ liu vào các cm sao cho các đối tượng
thuộc cùng một cm ơng đồng n c đối tượng thuc các cm khác
nhau s không tương đồng. Phân cm dữ liu một d của phương pháp
10
học không giám sát. Không ging như phân loi dữ liệu, phân cụm d liu
không đòi hỏi phải định nghĩa trước các mẫu dữ liu hun luyn. thế,
th coi phân cm dữ liu một cách hc bng quan sát (learning by
observation), trong khi phân loại dữ liu học bng d (learning by
example). Trong phương pháp này bn sẽ không th biết kết quả các cm thu
được sẽ như thế nào khi bt đầu quá trình. vy, thông thưng cn một
chuyên gia về lĩnh vực đó đ đánh giá các cm thu được. Phân cụm d liu
được sử dụng nhiu trong các ứng dụng v phân đon thị trường, phân đon
khách hàng, nhận dạng mu, phân loi trang Web… Ngoài ra phân cm d
liu còn thể
được s dụng như mt ớc tin xử cho các thut toán khai
phá d liệu khác.
Hình 1.4 cho thy s phân cụm tp d liệu cho vay vào trong 3 cm: u
ý rng các cụm chồng lên nhau cho phép các điểm d liu thuc v nhiu hơn
một cm.
Hình 1.4: Phân cm tp d liệu cho vay vào trong 3 cm
1.2.2.2 Luật kết hp
Mục tiêu của phương pháp này phát hin đưa ra các mối liên h
giữa các giá trị dữ liu trong CSDL. Mu đầu ra của thuật toán khai phá dữ
liu là tập lut kết hợp m được. Khai phá lut kết hợp được thc hin qua 2
bước:
Bước 1: m tt c các tp mục phổ biến, một tp mc phổ biến được xác
định qua tính độ hỗ tr thỏa mãn độ hỗ trcc tiểu.
Bước 2: sinh ra các luật kết hợp mnh từ tp mục phổ biến, các lut
11
phi thỏa mãn độ hỗ tr cực tiu và độ tin cậy cc tiu.
Phương pháp này được sử dụng rt hiu qu trong các nh vc
như marketing có chủ đích, phân tích quyết định, qun lí kinh doanh,…
1.3 Lợi thế của khai phá d liệu so với các phương pháp khác
Khai phá dữ liu một lĩnh vc liên quan ti rt nhiu ngành học
khác như: h CSDL, thống kê,... Hơn na, tuỳ vào ch tiếp cận được s
dụng, khai phá d liu còn thể áp dụng một s thut như mạng ron,
thuyết tập thô hoặc tp m, biểu din tri thức… Như vy, khai phá d liu
thực ra dựa trên các pơng pháp cơ bn đã biết. Tuy nhiên, s khác bit
của khai phá dữ liu so vi các phương pháp đó gì? Tại sao khai phá dữ
liệu li ưu thế n hn các phương pháp cũ? Ta sln t xem xét và gii
quyết các câu hỏi này.
1.3.1 Học máy (Machine Learning)
So với pơng pháp học y, khai phá d liu li thế hơn chỗ,
khai phá dữ liu th sử dụng vi các cơ s d liu thường động, không đầy
đủ, bị nhiu lớn hơn nhiu so với các tập dữ liu học y đin hình.
Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL
đầy đủ, ít biến động và tập dữ liu không quá lớn.
Tht vy, trong hc máy, thut ng cơ s dữ liệu ch yếu đề cp tới một
tập các mẫu được lưu trong tệp. Các mẫu thường các vectơ với độ dài c
định, thông tin về đc điểm, dãy các giá trị của chúng đôi khi cũng được lưu
li như trong từ đin dữ liu. Một thuật toán học s dụng tp d liu các
thông tin kèm theo tp dữ liu đó làm đầu vào đu ra biểu thị kết qu của
việc học. Hc máy khả năng áp dụng cho cơ s d liu, lúc này, học máy
s không phi học trên tp các mẫu nữa học trên tập các bản ghi ca
cơ s d liu. Tuy nhiên, trong thc tế, cơ s d liu thưng động, không
đầy đủ bị nhiu, lớn hơn nhiu so với các tập
d liệu học y điển nh.
Các yếu tố này làm cho hầu hết các thuật toán học y trở nên không hiu
qu. Khai phá dữ liu lúc này sẽ xử các vn đ vốn đã đin hình trong học
12
máy vượt quá kh năng ca học máy, đó sử dụng được các CSDL
cha nhiu nhiu, dữ liu không đầy đủ hoc biến đổi liên tục.
1.3.2 H chuyên gia (Expert Systems)
Các hệ chuyên gia nắm bt các tri thức cần thiết cho một bài toán nào
đó. Các kỹ thut thu thập giúp cho việc lấy tri thức từ các chuyên gia con
ni. Mỗi phương pháp hệ chuyên gia một cách suy diễn các lut t các
dụ và gii pháp đối với bài toán chuyên gia đưa ra. Phương pháp h
chuyên gia khác với khai phá d liu chỗ các dụ ca chuyên gia thường
mc chất lượng cao hơn nhiu so với các dữ liu trong CSDL, chúng
thường chỉ bao hàm được các trường quan trọng. Hơn na các chuyên gia s
xác nhn giá tr tính hữu ích ca các mẫu phát hin được.
1.3.3 Thống kê (Statistics)
Mc các phương pháp thng cung cấp một nn tng thuyết
vững chc cho các bài toán phân tích dữ liu nhưng chỉ tiếp cận thống
thuần tuý thôi chưa đủ bởi:
c phương pháp thống không phù hợp với các kiểu dữ liu cấu
trúc trong rất nhiều các cơ sở d liệu
- Thống hoàn toàn tính toán trên d liệu, không sử dụng tri thức
sẵn có vlĩnh vực quan m
- c kết qu của phân tích thống thể rt nhiều khó th m
được.
- c phương pháp thống cần sự hưng dn của người dùng để c
định phân tích d liệu như thế nào đâu.
Phương pháp thống một trong nhng nn tng thuyết của khai
phá dữ liu. S khác nhau cơ bn giữa khai phá dữ liu thng chỗ
khai phá dữ liu một phương tin được dùng bởi người s dụng đu cuối
chứ không phi các nhà thống . Khai phá dữ liu đã khc phục đưc các
yếu điểm trên ca thống kê, tự động quá trình thống một ch hiệu qu
thế gim bớt công việc ca người dùng đầu cuối, tạo ra một ng cụ dễ sử dụng
hơn.
13
1.4 Các ứng dụng của KDD những thách thc đối với KDD
1.4.1 Các ứng dụng của KDD
Các kỹ thut KDD thể được áp dụng vào trong nhiều lĩnh vc:
Thông tin thương mi: Phân tích d liu tiếp thị bán hàng, phân
ch vốn đầu tư, chp thun cho vay, phát hin gian ln, .
Thông tin sn xut: Điu khin lập lch, qun mng, phân tích
kết qu thí nghim, ...
Thông tin khoa học: Địa lý: Phát hiện động đất,...
...
1.4.2 Những thách thc đối với KDD
c cơ s d liu lớn hơn rất nhiu: cơ s dữ liu vi hàng trăm
trường và bng, hàng triệu bản ghi kích thước lên tới nhiu gigabyte vấn
đề hoàn toànnh thường và cơ s dữ liu terabyte (10
12
bytes) cũng đã
bt đầu xut hin.
Số chiu cao: Không chỉ thường một s lượng rt lớn các bn
ghi trong s d liu còn mt s lượng rt lớn các trường (các thuộc
tính, các biến) làm cho s chiu ca bài toán tr nên cao. Tm vào đó,
tăng thêm cơ hội cho một thuật toán khai phá dữ liu m ra các mẫu không
hợp l. Vy nên cần gim bt hiệu qu kích thước của bài toán nh hu
ích của tri thc cho trước để nhn biết các biến không hợp l.
Over-fitting (quá phù hợp): Khi thuật toán m kiếm các tham s tốt
nht cho một hình đặc bit s dụng một tp hu hn d liu, kết qu
hình biu din nghèo nàn trên dliệu kim định. Các gii pháp có thể bao
gồm hp lệ chéo, làm theo quy tc và các chiến lược thống tinh vi khác.
Thay đổi dữ liu tri thức: Thay đổi nhanh chóng d liu (động)
thể làm cho các mẫu đưc phát hin trước đó không còn hợp lệ. Thêm vào
đó, các biến đã đo trong một cơ s dữ liu ng dụng cho trước th bị sửa
đổi, xoá bỏ hay ng thêm các phép đo mới. c giải pháp hợp bao gồm các
phương pháp tăng trưởng để cp nht các mẫu x lý thay đổi.
14
D liu thiếu b nhiu: Bài toán này đặc bit nhy trong các sở
dữ liu thương mại. D liu điu tra dân s U.S cho thy tỷ l lỗi n tới 20%.
Các thuộc tính quan trng th bị mất nếu cơ s d liệu không đưc thiết kế
vi sự khám phá bng trí tu. Các gii pháp th gồm nhiu chiến lược thống
phc tp đnhn biết các biến n các biến phụ thuc.
Mối quan h phức tạp gia c trường: Các thuộc tính hay các giá trị
có cấu trúc phân cấp, các quan h giữa các thuộc tính các phương tiện
tinh vi hơn cho việc biu din tri thức v nội dung ca một cơ s d liu s
đòi hỏi các thuật toán phi kh năng s dụng hiu qu các thông tin này.
V mặt lịch sử, các thuật toán khai phá dữ liu được phát triển cho các bn
ghi giá trị thuộc tính đơn gin, mc du các kỹ thut mi bt nguồn t mối
quan hệ giữa các biến đang được phát triển.
Tính d hiu của c mẫu: Trong nhiu ứng dụng, điu quan trọng
những khai thác được phi càng dễ hiu đối với con người thì càng tốt.
Các gii pháp th thực hin được bao gồm c vic biu din được minh ho
bng đồ thị, cấu trúc lut với c đồ thị hướng, biu din bng ngôn ng
tự nhn và các kỹ thut hình dung ra dữ liệu tri thc.
Người dùng tương tác tri thc sẵn : Nhiều phương pháp KDD
hiện hành các ng c không tương tác thực sự với người dùng không
th dễ dàng kết hợp cht ch với tri thức sn v một bài toán loại tr theo
các cách đơn gin. Vic s dụng ca min tri thức quan trọng trong toàn
bộ các bước ca xử lý KDD.
ch hp với các hệ thống khác: Một h thống phát hin đứng một
mình có th không hu ích lm. c vn đ tích hợp đin hình gồm vic
tích hợp với một DBMS (tức qua một giao diện truy vn), ch hp với các
bảng tính và các công c trực quan và điều tiết các dự đoán cảm biến thời gian
thc.
1.5 Kết luận
Khai phá d liu lĩnh vc đã và đang tr thành một trong nhng
15
hướng nghiên cứu thu hút được sự quan m của nhiu chuyên gia v CNTT
trên thế giới. Trong những năm gn đây, rt nhiu các phương pháp thuật
toán mới liên tục đưc công bố. Điu này chng t những ưu thế, li ích
kh ng ng dụng thc tế to ln ca khai phá dữ liu. Phn này đã trình bày
một s kiến thức tổng quan v khai phá d liu, cho ta một cái nhìn tổng thể
về khai phá dữ liệu, nó giúp ích cho các tiếp cận các chương tiếp theo.