A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Tác động của nguồn vốn hỗ trợ phát triển chính thức đến lượng khí thải CO2 tại các quốc gia Châu Á : tiếp cận theo ngưỡng đô thị hóa
- Tác động của thực hiện các yếu tố ESG tới hiệu quả hoạt động của ngân hàng thương mại tại khu vực châu Á
- Kinh nghiệm phát triển nền “kinh tế bạc” của Trung Quốc trong bối cảnh già hoá dân số và bài học cho Việt Nam
- Phát triển kinh tế tư nhân ở Việt Nam : đổi mới từ nhận thức đến thực tiễn
- Ứng dụng công nghệ chuỗi khối (Blockchain) trong đổi mới sáng tạo tài chính