基于Sovits4.0的AI惠惠语音实现
写在前面
我要开始叠buff了
此次实现仅为本人个人兴趣,不会用于盈利,模型及使用项目不会外传,此项目仅用于制作音乐或用于视频配音,且音乐或视频不开启收益,仅作为分享用
有可能一次写不完,之后随缘更新吧
另外,我的性别认知是武装直升机,如果想从我这里拿模型,首先你需要出示直升机驾驶证(笑)
数据集获取
哪里有语音呢?
番剧?
从视频里获取语音数据需要一点一点分开视频语音,然后去除背景音,然后再总和。
合理推断获取500条数据需要至少10小时
怎么说都太麻烦了,如果能直接拿到语音数据就好了,比如游戏语音解包文件
等等,游戏?
素晴可是有游戏的,据我所知有PSV游戏和手游
PSV游戏基本没有解包的可能性,可恶的索尼
那就只能看手游了,首先你需要把它下载下来
游戏解包
这里我用到了雷电模拟器,这个模拟器很容易就可以root,推荐使用
游戏从哪里下载呢?从网上查了几个方案都是从加速器界面下载,但看加速器之后他们都停止了对游戏的服务,原因未知
有一个加速器可以下,树懒acc
但是树懒acc不能在模拟器上运行
好了难点来了,怎么拿到游戏呢?
首先在手机上下载树懒acc并安装游戏,然后生成分享apk,分享给自己的电脑,然后把apk文件安装在模拟器里,大功告成
接下来你还需要在模拟器里安个加速器,加速后打开游戏,此时需要点击下载所有文件,这样就可以获取到所有的语音文件。
然后打开这个路径
jp.co.sumzap.pj0007\files\bundles\Cri\Cpk
把所有的cpk拷贝出来,同时你还需要这三个工具:GARbro,VGMToolbox,hcadecode
开始音频提取
音频提取其实就是解密,因为手游为了减小文件大小,将音频,图片等资源进行了加密压缩,比如音频,素晴手游音频wav大概在10G左右,但是在游戏里也就不带1G。
首先使用GARbro工具,将上边获得的cpk拖进去,可以看到软件里一个cpk对应两个文件,分别是awb和acb,全选后右键提取,第一步完成。
第二步使用VGMToolbox,将需解包的文件全部拖到 VGMToolvox\MusicTools\ExtractionTools\Streams\CRI-HCA-Extractor 目录中,将awb/acb转化为hca形式,第二步完成。
第三步使用hcadecode,将这个和hca文件放在一个文件夹下,然后可以用脚本进行批量转换,最后得到转换好的wav
此处可以参考这个大哥写的博客
提取惠惠音频
终于到了整个工程最恐怖最难受的部分,素晴为了事件编辑方便,将所有声音文件按事件分类,并在时间内按人物进行二级排序,虽然我并不知道这样分有什么好处,但是这无疑大大加重了声音分拣工作量。
然后你会发现你得到了10W条音频,紧接着你会发现音频需要你一点一点提取
当然有快方法,但是仅能筛选一部分音频,毕竟素晴手游是个抽卡游戏,所以是存在活动语音和人物语音的,并且这两种语音都是存在人物角色分类的,经过分类发现惠惠的人物编号是102,这样可以筛选出来大概500条语音
500条语音肯定训练不出来很好的模型,所以我现在训练出来第一个模型之后在重新铸造数据集准备训练个惠惠v2,还可以顺便尝试vits最新版本
训练
这里就相对好弄,你只需要一个so-vits项目,调整合适的参数,把数据集放进去,然后运行就行了,我挂了一晚上训练出来的72000步模型相对稳定但是有些过拟合,惠惠的音色有些失去了特色,唉
然后这里可以去看我B站视频,向您推荐未来的百大up
应用
如果单纯是可以唱歌我也不会做这么麻烦的东西
唉但是其实只会唱歌的话也能发癫所以我还是会做对不起
我希望把这个玩意回头集成在我的AI管家项目里,可以让AI管家发出特定音色,完事给管家套个皮,恭喜你得到了一个AI老婆(不是)
然后现在的AI是可以炼丹的,也就是说可以在数据集里添加不同人物的音色得到所有人物音色融合的模型,这个模型可以未来应用到个人设计“欢迎来到滕文市”的角色语音。AI真的为内容创作者贡献了太多(他真的我哭死)