最新推荐
-
EZStationv3.9.0官方版 媒体软件 / 52.4M
-
趣看全媒体一体化导播台v6.0.0.515官方版 媒体软件 / 192M
-
4Easysoft DVD to AMV Converter(视频转换软件)v3.2.20官方版 媒体软件 / 7.5M
-
迅捷音频编辑软件v2.1.0.36官方版 媒体软件 / 46M
-
酷猫直播助手v1.38官方版 媒体软件 / 93.6M
精品推荐
-
EOP人人钢琴谱(EOP Sheet Music)v1.3.10.25官方版 媒体软件 / 7.9M
查看 -
MiniTool Video Converter(视频格式转换器)v3.1.2免费版 媒体软件 / 1.9M
查看 -
iMyFone AnyRecover(数据恢复软件)v5.3.1.15官方版 媒体软件 / 111.0M
查看 -
超级lrc播放器v5.2.4官方版 媒体软件 / 59.8M
查看 -
新星ASF视频格式转换器v9.6.0.0官方最新版 媒体软件 / 7.0M
查看
本类排行
详情介绍
MoeTTS是仓库发布的非常优秀的Tacotron2/HifiGAN模型+编译的GUI版本。大多数角色的语音合成效果都非常好,稍后会发布到MoeTTS项目页面。
MoeTTS是一个非常优秀的Tacotron2/HifiGAN模型+编译好的GUI版本发布仓库。大部分角色的语音合成效果非常好,后续会发布到MoeTTS项目页面。
基本介绍
MoeTTS是一个Tacotron2/HifiGAN模型+编译的GUI版本发布仓库。训练时间为3天,约900 Epoch。 13人大模型还在训练中,稍后会发布到MoeTTS项目页面。视频背后的模型是400 Epoch。经过5天的训练,大部分字符的语音合成都很好,但少数数据较少的字符则不太好。
指示
模型目录格式
单个模型可以放置在任何地方。如果模型有配置文件,请将其重命名为config.json,并将其放在与TTS模型同一目录下。 (例如hifigan、vits型号,它们都带有配置文件)
对于VITS型号,请将config.json中的cleaners更改为custom_cleaners
文本输入格式
文本一般是输入音素(日语应该在这里输入罗马发音),但是这取决于模型训练者如何输入数据。例如,我的ATRI模型(Tacotron2版本)输入罗马化时不带空格,标点符号仅支持逗号和句点。
定制清洁剂和符号
您可以在moetts.exe 的同一目录中找到custom 文件夹,该文件夹存储了两个模型的文本模块。
自定义cleaner:找到cleaners.py,修改custom_cleaners函数(软件默认只会去除symbol中不存在的字符,不会对文本进行进一步处理)
自定义符号:找到symbols.py,将里面的符号改为自己需要的符号。
注意:不同的模型可能会使用不同的清洁剂和符号进行训练。如有必要请进行修改,以保证模型能够正常使用。
如何使用图形用户界面
塔科特隆2
选择你的模型路径和输出目录,最后输入要合成的文本,点击Synthesize Speech,稍等片刻,软件就会将音频输出到输出目录/outpus.wav
防范措施:
第一次综合需要加载模型,耗时较长。如果再次合成同一个模型,则不会再次加载,直接合成。
如果切换模型,将重新加载再次合成。
如果修改了清洁剂和符号,则重新启动软件后才会生效。
该软件为64位版本,不支持32位系统。
VITS 的特别说明
VITS-Single 和VITS-Multi 分别是单角色模型和多角色模型。
VITS-Multi中的原始角色ID为待合成语音的角色ID,需要填写数字。目标角色ID为待迁移语音迁移功能的目标角色ID。
要迁移的音频需要22050、16 位和单声道的采样率。