善渊 发表于 2024-3-1 16:57:50

分享一个基于VITS的简单易用的变声框架,相当简答好用!


分享一个基于VITS的简单易用的变声框架

使用截图:


训练推理界面:




底模使用接近50小时的开源高质量VCTK训练集训练,无版权方面的顾虑,请大家放心使用请期待RVCv3的底模,参数更大,数据更大,效果更好,基本持平的推理速度,需要训练数据量更少。
[*]使用top1检索替换输入源特征为训练集特征来杜绝音色泄漏
[*]即便在相对较差的显卡上也能快速训练
[*]使用少量数据进行训练也能得到较好结果(推荐至少收集10分钟低底噪语音数据)
[*]可以通过模型融合来改变音色(借助ckpt处理选项卡中的ckpt-merge)
[*]简单易用的网页界面
[*]可调用UVR5模型来快速分离人声和伴奏
[*]使用最先进的人声音高提取算法InterSpeech2023-RMVPE根绝哑音问题。效果最好(显著地)但比crepe_full更快、资源占用更小
[*]A卡I卡加速支持

站长亲测可用。

github下载地址:**** Hidden Message *****
页: [1]
查看完整版本: 分享一个基于VITS的简单易用的变声框架,相当简答好用!