A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Phân hạng nguy hiểm cháy và cháy nổ cho nhà sản xuất có nguy cơ nổ bụi tại Việt Nam
- Ảnh hưởng của đường quan hệ lực cắt - chuyển vị ngang của gối cách chấn đa lớp đến hiệu quả giảm chấn của nhà cách chấn đáy có kết cấu tường gạch
- Nâng cao hiệu quả nhận dạng các tham số dao động dựa trên kỹ thuật tách nguồn mù
- Ảnh hưởng của sườn đứng đến khả năng chịu nén đúng tâm của khối xây bằng gạch đất không nung
- Nguyên nhân phá hủy bề mặt gạch tháp Khương Mỹ và giải pháp hạn chế hư hỏng gạch phục chế, sử dụng gia cường khối xây tháp trong môi trường biển