CSDL Bài trích Báo - Tạp chí
Khoa Công Nghệ Thông Tin
61 Similarity algorithms for fuzzy join computation in big data processing environment / Anh Cang Phan, Thuong Cang Phan // .- 2023 .- Tập 39 - Số 2 .- P. 101-124 .- 005
Currently, there is very little research on this issue, thus it poses significant barriers to the efforts of improving query operations on big data efficiently. As a result, this study overviews the similarity algorithms for fuzzy joins, in which the data at the join key attributes may have slight differences within a fuzzy threshold.
62 Human gait analysis using hybrid convolutional neural networks / Khang Nguyen, Viet V. Nguyen, Nga T. Mai, An H. Nguyen, Anh V. Nguyen // .- 2023 .- Tập 39 - Số 2 .- P. 125-142 .- 005
This paper analyzes the combination of IMU sensors and electromyography sensors (EMG) to improve the identification accuracy of human movements. We propose the hybrid convolutional neural network (CNN) and long short-term memory neural network (LSTM) for the human gait analysis problem to achieve an accuracy of 0.9418, better than other models including pure CNN models. By using CNN's image classification advancements, we analyze multivariate time series sensor signals by using a sliding window to transform sensor data into image representation and principal component analysis (PCA) to reduce the data dimensionality. To tackle the dataset imbalance issue, we re-weight our model loss by the inverse effective number of samples in each class. We use the human gait HuGaDB dataset with unique characteristics, for gait analysis.
63 A study of data augmentation and accuracy improvement in machine translation for Vietnamese sign language / Thi Bich Diep Nguyen, Trung Nghia Phung, Tat Thang Vu // .- 2023 .- Tập 39 - Số 2 .- P. 143-158 .- 005
In this paper, we experimented with and proposed several methods for building and improving models for the VL to VSL translation task. We presented a data augmentation method to improve the performance of our neural machine translation models. Using an initial dataset of 10k bilingual sentence pairs, we were able to obtain a new dataset of 60k sentence pairs with a perplexity score no more than 1.5 times that of the original dataset.
64 Sử dụng trí tuệ nhân tạo trong báo chí: lợi ích và nguy cơ / Lê Văn Hưng, Nguyễn Thị Thanh, Trần Trung Chuyên // .- 2023 .- Số (269+270) - Tháng (7+8) .- Tr. 21-23 .- 004
Sử dụng Trí tuệ nhân tạo trong ngành báo chí đã mang lại nhiều lợi ích đáng kể. Bài báo đề cập những nguy cơ khi sử dụng trí tuệ nhân tạo cũng như nguyên tắc cho việc sử dụng trí tuệ nhân tạo trong báo chí, nhằm đảm bảo sự minh bạch, trách nhiệm và đạo đức, từ đó tạo nên sự phát triển bền vững cho ngành báo chí.
65 Chuyển đổi số trong tổ chức giáo dục đại học : xu hướng toàn cầu và thách thức / Tôn Thất Hoàng HảI // .- 2022 .- Volume 7 (N 2) - Tháng 9 .- Tr. 1 - 5 .- 005
Nghiên cứu này hệ thống tổng quan tài liệu để cung cấp những thông tin tổng hợp về hoạt động chuyển đổi số trong giáo dục đại học. Nghiên cứu sử dụng các cơ sở dữ liệu như Google Scholar, Research Gate, … để tiếp cận các bài báo về chuyển đổi số trong giáo dục đại học.
66 Phát hiện bất thường sớm trong mạng quản lý bằng phần mềm / Trần Mạnh Hà, Nguyễn Anh Tuấn, Lê Thanh Sơn // .- 2022 .- Volume 7 (N 2) - Tháng 9 .- Tr. 45 - 56 .- 005
Phát hiện bất thường sớm trong hệ thống mạng là một trong những chức năng quan trọng của quản lý lỗi mạng. Khi hệ thống mạng phát triển lớn về qui mô và quản trị, phức tạp về kiến trúc và chức năng, đồng thời độ co giãn lớn, vấn đề phát hiện bất thường càng trở nên thách thức và khó giải quyết. Nghiên cứu này tập trung giải quyết vấn đề phát hiện bất thường trên mạng quản lý bằng phần mềm (software defined network hay mạng SDN) là một trong những hệ thống mạng mới nổi có đầy đủ đặc tính nêu trên. Giải pháp đề xuất kết hợp giám sát và thu thập dữ liệu sự kiện từ thiết bị chuyển tiếp và áp dụng kĩ thuật máy học vào dữ liệu sự kiện để phát hiện bất thường. Giải pháp được tích hợp vào bộ điều khiển của mạng SDN cho phép thu thập, phân tích sự kiện và cảnh báo bất thường cho người quản trị hệ thống thông qua ứng dụng. Đánh giá giải pháp bao gồm mở rộng chức năng bộ điều khiển sử dụng công cụ mã nguồn mở Ryu và thử nghiệm kĩ thuật phân loại rừng ngẫu nhiên trên tập dữ liệu sự kiện thu thập từ hệ thống Spark thực tế.
67 Thuật toán khai thác tập hữu ích cao dựa trên di truyền với đột biến xếp hạng / Phạm Đức Thành, Lê Thị Minh Nguyện // .- 2022 .- Volume 7 (N 2) - Tháng 9 .- Tr. 67 - 81 .- 005
Khai thác độ hữu ích là nghiên cứu khai thác tập mục có lợi từ cơ sở dữ liệu giao dịch. Đây là phương pháp khai thác tập phổ biến dựa trên độ hữu ích để tìm tập mục phù hợp với sở thích của người dùng. Những nghiên cứu gần đây về khai thác các tập mục hữu ích cao (HUIs) từ cơ sở dữ liệu (CSDL) phải đối mặt với hai thách thức lớn, đó là không gian tìm kiếm theo cấp số nhân và ngưỡng hữu ích tối thiểu phụ thuộc vào CSDL. Không gian tìm kiếm vô cùng lớn khi số lượng các mục riêng biệt và kích thước của CSDL lớn. Các nhà phân tích phải chỉ định các ngưỡng hữu ích tối thiểu để phù hợp với những công việc khai thác của họ, mặc dù có thể họ không có kiến thức liên quan đến CSDL mà họ đang làm. Hơn nữa, thuật toán khai thác độ hữu ích chỉ hỗ trợ tập mục mang giá trị dương. Để tránh những vấn đề này, bài viết rình bày hai cách tiếp cận để khai thác HUI có chứa mục giá trị âm từ CSDL giao dịch: có hoặc không có chỉ định ngưỡng hữu ích tối thiểu thông qua thuật giải di truyền với đột biến được xếp hạng. Theo sự tìm hiểu của chúng tôi, đây là nghiên cứu đầu tiên trong khai thác HUI với các giá trị mang mục âm từ CSDL giao dịch sử dụng thuật giải di truyền. Kết quả thử nghiệm cho thấy các phương pháp tiếp cận được mô tả trong bài viết này đạt được hiệu suất tốt hơn về khả năng mở rộng và tính hiệu quả.
68 Cải tiến thuật toán Hminer cho việc khai thác tập hữu ích cao trên dữ liệu thao tác thưa / Trần Minh Thái, Trần Anh Duy, Lê Thị Minh Nguyện // .- 2023 .- Volume 7 (N 3) - Tháng 3 .- Tr. 7 - 16 .- 005
Nghiên cứu và đề xuất phương pháp khai thác đối với tập dữ liệu thưa thông qua một số cách thức tổ chức dữ liệu và kỹ thuật cắt tỉa. Kết quả đánh giá thực nghiệm đã chứng tỏ được tính khả thi của giải pháp được đề xuất.
69 Phân lớp dữ liệu mất cân bằng trong bài báo dự đoán thuê bao rời bỏ nhà mạng dựa vào giải thuật Rừng Ngẫu Nhiên cải tiến / Dương Tuấn Anh, Đinh Minh Hòa // .- 2023 .- Volume 7 (N 3) - Tháng 3 .- Tr. 58 - 67 .- 005
Trong lãnh vực viễn thông, việc thuê bao rời bỏ nhà mạng là sự cố rất đáng quan tâm vì vấn đề này có thể ảnh hưởng đến lợi nhuận của công ty. Tuy nhiên, đặc điểm dữ liệu mất cân bằng trong bài toán dự đoán thuê bao rời bỏ nhà mạng gây khó khăn cho việc phát triển một mô hình phân lớp hiệu quả để giải quyết bài toán này. Trong nghiên cứu này thử áp dụng giải thuật rừng ngẫu nhiên có điều chỉnh hàm chi phí (cost-sensitive weighted random forest - CSWRF), vốn đã thành công trong bài toán phát hiện gian lận thẻ tín dụng (credit card fraud detection), để giải quyết vấn đề dữ liệu mất cân bằng trong bài toán dự đoán thuê bao rời bỏ nhà mạng. Ngoài ra, chúng tôi so sánh hiệu quả của giải thuật CSWRF với cách tiếp cận lấy mẫu dữ liệu: kết hợp giải thuật Rừng Ngẫu Nhiên với kỹ thuật lấy mẫu tăng SMOTE. Kết quả thực nghiệm trên hai bộ dữ liệu mẫu cho thấy đối với bài toán dự đoán thuê bao rời bỏ nhà mạng, vốn là bài toán mất cân bằng dữ liệu, hiệu quả phân lớp của giải thuật CSWRF thuộc cách tiếp cận điều chỉnh hàm chi phí (cost-sensitive learning) tốt hơn phương pháp SMOTE kết hợp giải thuật Rừng Ngẫu Nhiên.
70 Ứng dụng khai thác mẫu tuần tự vào việc dự đoán xu hướng cổ phiếu / Trần Minh Thái, Nguyễn Tuấn Dũng // .- 2023 .- Volume 7 (N 3) - Tháng 3 .- Tr. 68 - 76 .- 005
Đề xuất mô hình sử dụng kỹ thuật khai thác dữ liệu áp dụng vào việc dự đoán xu hướng cổ phiếu. Mô hình dự đoán dựa vào thuật toán khai thác mẫu con tuần tự trên tập dữ liệu lịch sử cổ phiếu. Bên cạnh đó, kỹ thuật xác định mẫu con thông qua độ tương tự cũng được trình bày trong bài báo. Dữ liệu thực nghiệm được thu thập trên trang https://finance.yahoo.com. Kết quả thực nghiệm của mô hình được đề xuất có độ chính xác trung bình tốt hơn so với mô hình truyền thống như SVM và LSTM.