卧槽,谢谢认真的评论!!
sovits的AI原理就是提取特征,训练成模型,再把输入的音频推理替换成之前提取的特征。
我手上的数据集确实不够,我只是觉得好玩,就花了半天时间做来玩,数据集非常小。是的,这只是十几分钟数据集的效果x。但是我真的不想做了,听了一个上午达子的声音,我最近大概率都不想再听了x
以现在AI的迭代速度,应该不久就能更好地提取语气特征,数据量也会相应减少,我已经看到了相关论文(只浅看了标题和Introduction
具体操作完全不会)
其实真的只是你魔太冷了,不然我也不会做的,这种行为纯纯为爱发电,毕竟还有三次元生活嘛~如果大佬愿意做更好的给大家看就好啦~我会看喵我爱看喵~