发布网友 发布时间:1天前
共0个回答
探索E2E语音生成的新边界:JETS——FastSpeech2与HiFi-GAN的完美融合</ 在语音技术的领域,Light Sea@知乎带来了一项革命性的突破——JETS,一个旨在解决传统二阶段训练繁琐问题的端到端文本到语音(TTS)模型。它摒弃了繁琐的外部工具,直接将文本转化为逼真的语音,通过FastSpeech2和HiFi-GAN的协同作用...
JETS——基于FastSpeech2和HiFi-GAN的端到端TTS解决这些问题的方法就是完全端到端的TTS模型(E2E-TTS),近期的模型诸如 FastSpeech2和VITS都有着和二阶段模型类似的表现。本文中作者提出一种基于FastSpeech2和HiFi-GAN的E2E-TTS模型JETS,模型可以直接从text生成语音。作者还提出一个alignment module,使得JETS不需要依赖外部工具如 MFA来生成alignment。实...
基于FastSpeech2优化的中文语音合成2.1 模型介绍:文字转语音目前主流做法分为三个阶段:文本分析、声学模型、声码器。本次模型采用Fastspeech2结构,声码器采用HifiGAN。2.2 模型优化:包括微调Prosody-Bert、引入Prosody-Bert的文本特征丰富prosody features、在Variance Adaptor中加入prosody predictor,控制韵律学习。三、预处理及训练预测流...