A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Biện pháp quản lý hoạt động dạy học trực tuyến để đem lại cơ hội bình đẳng cho người học
- Phát triển năng lực ứng dụng ICT cho sinh viên trong hoạt động viết bài nghiên cứu khoa học tại Trường Đại học Kỹ thuật - Công nghệ Cần Thơ
- Luật số lớn đối với tổng có trọng số các biến ngẫu nhiên mờ
- Máy tính lượng tử, cơ hội và thách thức đối với an toàn an ninh
- Trắc nghiệm thích ứng trên máy tính: Giải pháp mới đánh giá năng lực thí sinh