Empirical study of feature extraction approaches for image captioning in Vietnamese
Tác giả: Khang Nguyen
Số trang:
P. 327-346
Tên tạp chí:
Tin học & Điều khiển học
Số phát hành:
V.38-N.4
Kiểu tài liệu:
Tạp chí trong nước
Nơi lưu trữ:
03 Quang Trung
Mã phân loại:
005
Ngôn ngữ:
Tiếng Anh
Từ khóa:
Grid features, region features, image captioning, Viecap4h, uit-viic, faster R-CNN, cascade R-CNN, grid R-CNN, Vinvl
Chủ đề:
Computer science
Tóm tắt:
This study focus on the image captioning problem in Vietnamese. Indetail, an empirical study of grid-based and region-based feature extraction approaches using currentstate-of-the-art object detection methods is investigated to explore the suitable way to represent theimages in the model space. Each feature type represents images, and the image captioning task istrained using the Transformer-based model. The effectiveness of different feature types is exploredon two Vietnamese datasets: UIT-ViIC and VieCap4H, the two standard benchmark datasets. Theexperimental results show crucial insight into the feature extraction task for image captioning inVietnamese.
Tạp chí liên quan
- Cấu trúc điện tử của rutile TiO2 pha tạp bởi các nguyên tố N, Fe
- Một hướng tiếp cận nâng cao hiệu quả phát hiện mặt người trong ảnh
- Nghiên cứu ảnh hưởng của các điều kiện tổng hợp lên cấu trúc của vật liệu Zeolite 4A sử dụng phương pháp nhiễu xạ tại X kết hợp với phổ kế thời gian sống positron
- Đào tạo theo dự án giải pháp xanh tái sử dụng vỏ chai nhựa (Poly Ethylene Terephtalate -PET)
- Giới thiệu hệ thống tự động kiểm tra khuyết tật hàn với bản đồ 3D





