Phân lớp dữ liệu mất cân bằng trong bài báo dự đoán thuê bao rời bỏ nhà mạng dựa vào giải thuật Rừng Ngẫu Nhiên cải tiến
Tác giả: Dương Tuấn Anh, Đinh Minh HòaTóm tắt:
Trong lãnh vực viễn thông, việc thuê bao rời bỏ nhà mạng là sự cố rất đáng quan tâm vì vấn đề này có thể ảnh hưởng đến lợi nhuận của công ty. Tuy nhiên, đặc điểm dữ liệu mất cân bằng trong bài toán dự đoán thuê bao rời bỏ nhà mạng gây khó khăn cho việc phát triển một mô hình phân lớp hiệu quả để giải quyết bài toán này. Trong nghiên cứu này thử áp dụng giải thuật rừng ngẫu nhiên có điều chỉnh hàm chi phí (cost-sensitive weighted random forest - CSWRF), vốn đã thành công trong bài toán phát hiện gian lận thẻ tín dụng (credit card fraud detection), để giải quyết vấn đề dữ liệu mất cân bằng trong bài toán dự đoán thuê bao rời bỏ nhà mạng. Ngoài ra, chúng tôi so sánh hiệu quả của giải thuật CSWRF với cách tiếp cận lấy mẫu dữ liệu: kết hợp giải thuật Rừng Ngẫu Nhiên với kỹ thuật lấy mẫu tăng SMOTE. Kết quả thực nghiệm trên hai bộ dữ liệu mẫu cho thấy đối với bài toán dự đoán thuê bao rời bỏ nhà mạng, vốn là bài toán mất cân bằng dữ liệu, hiệu quả phân lớp của giải thuật CSWRF thuộc cách tiếp cận điều chỉnh hàm chi phí (cost-sensitive learning) tốt hơn phương pháp SMOTE kết hợp giải thuật Rừng Ngẫu Nhiên.
- Đánh giá tình trạng nhiễm trùng huyết tại đơn vị Ghép tế bào gốc- khoa Huyết học - bệnh viện Chợ Rẫy từ năm 2017 đến 6 tháng đầu năm 2024
- Đánh giá đáp ứng sau hóa trị tân hỗ trợ bằng phác đồ Docetaxel, Carboplatin và Trastuzumab ở bệnh nhân ung thư vú có thụ thể HER2 dương tính giai đoạn II, III
- Nghiên cứu tỉ lệ cắt tuyến phó giáp không chủ ý trong phẫu thuật cắt giáp và nạo hạch cổ nhóm vi tại Bệnh viện Ung Bướu Thành phố Hồ Chí Minh năm 2023
- Vai trò của thời gian nhân đôi thyroglobulin trong đánh giá tái phát, di căn ở bệnh nhân ung thư tuyến giáp thể biệt hóa
- Đánh giá bước đầu phẫu thuật đoạn chậu trong ung thư phụ khoa initial





