A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Thực trạng tài trợ và cơ hội tài chính khí hậu từ Quỹ Khí hậu Xanh cho các nước đang phát triển
- Đánh giá sự hài lòng của du khách đối với ẩm thực đường phố tại thành phố Cần Thơ
- Kinh nghiệm phát triển du lịch ẩm thực của Hàn Quốc và bài học kinh nghiệm cho Việt Nam
- Kinh nghiệm phát triển du lịch địa chất tại công viên địa chất Trung Quốc
- Dự báo phân bố mưa cho các tiểu lưu vực trong lưu vực sông Srêpốk theo mô hình CMIP6