
随着当今人工智能技术的快速发展,语音合成领域(TTS)正在经历前所未有的技术革命。最新一代的文本到语音系统不仅会产生与现实声音质量相比的高额语音,而且还意识到零样本克隆的能力,通过“仅听一次”与目标音调完全相似。成功发展的背后是大规模语音数据的积累和大规模模型技术的快速发展。 Deviceek系列在该技术的最前沿,通过GRPO算法(相对组方法的优化)领导大型语言模型(LLM)的新研究。目前,增强研究已扩展到自回旋的TTS系统。但是,由于非自动回忆架构与大型语言模型(LLM)之间的主要pD不同结构,因此没有成功整合强化研究的案例在非自动入学的TTS系统中,此技术问题仍然可行。最近,Tencent PCG社会线研究团队提出了F5R-TTS系统来应对这一挑战,并坚持通过将模型输出转换为可能性表示的“ REN和D MERIDIAN”研究非自动进取TTS模型。 Paper Title: F5R-TTS: Improving Flow-Matching Based Text-to-Speech with Group Relative Policy Optimization Paper Link: https://arxiv.org/abs/2504.02407 Project Homepage: https://fronierlabs.github.io/F5R/F5RR-F5R-TTs TheNovative Architectures Effectively integrates reinforcement learning through model architecture innovation.可以在三个方面看到Aragthis al的基本贡献:输出的概率转换:研究团队创新了与可能性表示相对应的TTS模型的输出。这种变化使得将增强研究应用于非自动回归模型,这使得fou用于后续优化的ndation。 GRPO优化方法:首次使用“错误率(WE)”(WE)和说话者(SIM)的相似性(SIM)作为奖励信号,成功地将GRPO过程成功地应用于非自动回忆TTS模型,以有效指导模型优化方向。零样本语音克隆验证:在零样本的克隆方案中,F5R-TTS模型显示出显着的优势。与传统的非自动入学TTS基线模型相比,Kataflend(略微降低29.5%)和说话者的一致性(在某种程度上提高了4.6%)方面取得了重大改进。 F5R-TTS训练过程分为两个主要阶段:第一阶段是根据流量损失的功能进行的;第二阶段通过GRPO算法精细优化。这两个阶段的训练策略不仅确保了模型的初始性能,而且还可以转发该法规的研究已达到目标优化。概率转化:加强研究的基础,我们选择了具有最佳影响的非自动回旋TTS。为了使非自动入学模型适应GRPO框架,F5R-TTS经历了可能性的关键转换。具体而言,该模型旨在预测输出每个步骤的分布的可能性,而不是直接预测确定性的外发量。这种变化使模型的输出具有可能性的特征,这为加固研究方法的梯度计算提供了必要的条件。在预训练的第一阶段,该函数的目的仍然增强了匹配流的形式,其主要思想是匹配正常X0分布在估计的实际数据x1分布中的可能性。该模型预测最后一层高斯分布的平均值和多样性,并优化了参数为了最大程度地提高X1 -X0的对数假设的功能。该过程可以作为以下目标功能为福音:或者,在此之后,该模型使用以下公式作为GRPO GRPO阶段的预训练的目标函数,预训练的模型是正确焦点的,并且参考模型始于预训练的参数。在特定实现方面,进近模型的正向操作需要采样操作,类似于识别过程 - 呈现标准高斯分布的初始输入,逐渐计算出每个步骤的输出可能性的分布,这就是一个示例。采样结果用于计算奖励信号,需要将其与参考的参考模型进行比较,以计算KL差异的损失,以确保优化过程的稳定性。奖励功能的设计位于GRPO阶段的中心。研究茶m选择了错误率(WER)和说话者(SIM)的相似性作为主要的奖励指标,SusporySpeech:Semantic Specter:Semantic Spectic and seal的忠诚度和忠诚度。最终,GRPO阶段的客观功能定义如下:研究实验团队设计了一个综合实验,以验证F5R-TTS的有效性。实验设置包括:运动前阶段:使用7226小时的wenetspeech4tts Basicgrpo微调:随机选择100小时高质量的数据审核数据:包括400个高缺陷标准,建立了140个噪音示例)。 WER和SIM研究团队的计算首先使用T-SNE技术来说明二维空间中说话者的相似性。结果如图4所示。与其他方法相比,当MAS准确时,F5R-TTS模型合成结果可以基于目标扬声器实现群集。这种可视化是直观地显示了F5R-TTS模型的更好性能演讲者的相似性。其次,全局差异-IBA(GV)的指标已用于频谱分析。如图5所示,F5R模型曲线具有最高的一致性 - 类似于真实的语音曲线,在壮观的性质方面,F5 -R模型的综合语音与真实语音的相似性更高。目的测试指标表明,使用WER和SIM为奖励信号的GRPO方法在语义精确度测量中改善了F5R-TT,与基线相比,扬声器的相似性。通过与说话者相关的奖励指南,F5R能够通过研究环境来更准确地克隆目标扬声器的声学特征。值得注意的是,在困难的测试集中,F5R在WER度量中具有更重要的相对儿童优势 - 感谢WER相关组件的语义维护能力的有效增强。另外,要验证G的能力建议方法的能量概括,还重复该实验以验证内部数据集,结果表明,GRPO方法可以继续改善各种数据集中的模型性能。同时,在困难试验集中这三个模型的性能减少了,这表明增加文本复杂性通常会导致模型稳定性降低。这种现象将是随后研究优化研究的重要入境点。 Anthe F5R-TTS的未来观点首次成功地将GRPO纳入了非自动进取的TTS系统,破坏了应用非自动回旋模型增强研究的技术困难。实验证明,这种方法可以同时提高语义准确性和密封诚实,从而为零样本的语音克隆提供了增强的解决方案。本文建议的概率输出转化方法为刺激T提供了参考思想他加强了其他编队模型。这项研究不仅促进了语音合成技术本身的发展,而且还提供了优化其他AI生成模型的新想法。未来,研究小组计划继续从三个方向进行深入探讨:扩展研究算法:探索将其他强化研究算法(例如PPO和DDPOS)(例如PPO和DDPO)整合到非自助性语音综合系统中的可行性,并寻求更好的优化途径。优化奖励功能:设计更精致和多层次的奖励功能,以进一步提高自然,个性化和表达的模型有效性。数据验证是大规模的:验证在大规模和更多样化的培训数据中验证程序的可伸缩性,并探索数据量表和模型性能之间的关系量。随着技术的不断发展,我们期望出现更自然,个性化和表现力的声音将来的合成系统将新的可能性带来智能的踢球,内容创建,帮助技术和其他领域。