A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Chính sách thuế bất động sản ở Việt Nam : nhận diện bất cập và đề xuất một số giải pháp
- Kiến trúc tham chiếu chuyên ngành đa dạng sinh học trong hệ thống thông tin lĩnh vực môi trường
- Tối ưu hóa quá trình tiền xử lý bã mía bằng axit formic phục vụ cho sản xuất ethanol sinh học
- Nghiên cứu thu hồi nitơ và photpho từ nước thải chế biến thủy sản bằng công nghệ kết tủa struvite
- Tình hình thực hiện chỉ số hoạt động môi trường (EPI) của Việt Nam năm 2024