A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Đánh giá tác động của đào tạo nâng cao năng lực đến sự tự tin trong chăm sóc sức khoẻ tâm thần cho người bệnh ung thư của điều dưỡng viên
- Thực trạng phát triển kinh tế tư nhân ở Việt Nam : thành tựu, thách thức và triển vọng
- Những động lực giúp Việt Nam tăng trưởng 8% trong năm 2025 : thực trạng và giải pháp
- Đẩy mạnh giải ngân vốn đầu tư công đối với các dự án trong ngành đường sắt ở Việt Nam
- Nghiên cứu mối quan hệ giữa phân cấp tài khóa và chất lượng dịch vụ công tại Việt Nam