ADAPT-TTS: high-quality zero-shot multi-speaker text-to-speech adaptive-based for Vietnamese
Tác giả: Phuong Pham Ngoc, Chung Tran Quang, Mai Luong Chi
Số trang:
P. 159-173
Số phát hành:
Tập 39 - Số 2
Kiểu tài liệu:
Tạp chí trong nước
Nơi lưu trữ:
03 Quang Trung
Mã phân loại:
621
Ngôn ngữ:
English
Từ khóa:
Zero-shot TTS, multi-speaker, text-to-speech, diffusion models, mel-spectrogram denoiser, Extracting Mel-vector, EMV, Adapt-TTS
Chủ đề:
Engineering
Tóm tắt:
In this paper introduce the Adapt-TTS model that allows high-quality audio synthesis from a small adaptive sample without training to solve these problems. Key recommendations: 1. The Extracting Mel-vector (EMV) architecture allows for a better representation of speaker characteristics and speech style; 2. An improved zero-shot model with a denoising diffusion model (Mel-spectrogram denoiser) component allows for new voice synthesis without training with better quality (less noise).
Tạp chí liên quan
- Thiết kế đô thị vì sức khỏe cộng đồng
- Nghiên cứu các yếu tố hấp dẫn đô thị : lấy TP. HCM làm nghiên cứu điển hình
- Nghiên cứu thực nghiệm xác định áp lực sóng xung kích trên bề mặt đất do 2 lượng nổ liên tiếp trong không khí
- Sử dụng lý thuyết biến dạng cắt tính toán động lực học của dầm bê tông cốt thanh composite aramid trên nền đàn hồi chịu tác dụng của hệ dao động di động
- Kinh nghiệm phát triển kinh tế số của một số quốc gia Đông Á và bài học tham khảo cho Việt Nam