A new information theory based algorithm for clustering categorical data
Tác giả: Do Si Truong, Lam Thanh Hien, Nguyen Thanh TungTóm tắt:
In this paper, we review two baseline algorithms for use with categorical data, namely Min-Min Roughness (MMR) and Mean Gain Ratio (MGR), and propose a new algorithm, called Minimum Mean Normalized Variation of Information (MMNVI). MMNVI algorithm uses the Mean Normalized Variation of Information of one attribute concerning another for finding the best clustering attribute, and the entropy of equivalence classes generated by the selected clustering attribute for binary splitting the clustering dataset. Experimental results on real datasets from UCI indicate that the MMNVI algorithm can be used successfully in clustering categorical data. It produces better or equivalent clustering results than the baseline algorithms.
- Thực trạng ứng dụng công nghệ thông tin trong giảng dạy tiếng Anh cho sinh viên không chuyên
- Một số kết quả tính toán và thiết kế cơ khí xe lăn điện kiểu đứng
- Nghiên cứu phát triển hệ thống tính toán dự báo và thu thập dữ liệu nghiên cứu sâu keo mùa thu trên cây ngô
- Tổng quan một số phương pháp tìm kiếm mã nguồn
- Chuyển đổi số: Từ khái niệm đến mô hình và giải pháp