A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Mức độ ảnh hưởng của các yếu tố gây khó khăn trong việc học kĩ năng nghe của sinh viên không chuyên tiếng Anh tại Trường Đại học Công nghiệp Hà Nội
- Phương pháp thuyết trình tiếng Nhật và hiệu quả trong học tập tiếng Nhật của sinh viên ngành ngôn ngữ Nhật
- Tìm hiểu một số lỗi ngứ pháp tiếng Việt của sinh viên Trung Quốc qua các bài viết luận
- Sự chuyển hóa ý nghĩa của từ vị giác 咸 (hàm) trong tiếng Hán và “mặn” trong tiếng Việt
- Đặc trưng văn hóa – dân tộc của thành ngữ Tày có các thành tố chỉ bộ phận cơ thể biểu thị trí tuệ của con người