ADAPT-TTS: high-quality zero-shot multi-speaker text-to-speech adaptive-based for Vietnamese
Tác giả: Phuong Pham Ngoc, Chung Tran Quang, Mai Luong Chi
Số trang:
P. 159-173
Số phát hành:
Tập 39 - Số 2
Kiểu tài liệu:
Tạp chí trong nước
Nơi lưu trữ:
03 Quang Trung
Mã phân loại:
621
Ngôn ngữ:
English
Từ khóa:
Zero-shot TTS, multi-speaker, text-to-speech, diffusion models, mel-spectrogram denoiser, Extracting Mel-vector, EMV, Adapt-TTS
Chủ đề:
Engineering
Tóm tắt:
In this paper introduce the Adapt-TTS model that allows high-quality audio synthesis from a small adaptive sample without training to solve these problems. Key recommendations: 1. The Extracting Mel-vector (EMV) architecture allows for a better representation of speaker characteristics and speech style; 2. An improved zero-shot model with a denoising diffusion model (Mel-spectrogram denoiser) component allows for new voice synthesis without training with better quality (less noise).
Tạp chí liên quan
- Phân hạng nguy hiểm cháy và cháy nổ cho nhà sản xuất có nguy cơ nổ bụi tại Việt Nam
- Ảnh hưởng của đường quan hệ lực cắt - chuyển vị ngang của gối cách chấn đa lớp đến hiệu quả giảm chấn của nhà cách chấn đáy có kết cấu tường gạch
- Nâng cao hiệu quả nhận dạng các tham số dao động dựa trên kỹ thuật tách nguồn mù
- Ảnh hưởng của sườn đứng đến khả năng chịu nén đúng tâm của khối xây bằng gạch đất không nung
- Nguyên nhân phá hủy bề mặt gạch tháp Khương Mỹ và giải pháp hạn chế hư hỏng gạch phục chế, sử dụng gia cường khối xây tháp trong môi trường biển