看了总督哥的AI奶绿,搞了个用奶绿声音说话的AI。
模型代码:
https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese
数据集:
10.14、10.15录播,根据字幕文件切片,韵律词手标的,标了900条吧大概。最好不要有背景人声BGM,不好分离。
效果:(凑活看吧,墙内的link发不出来)
https://drive.google.com/file/d/1mK0TSXx7tSwPABvxD-5zOiiIWjo8dsOx/view?usp=sharing
音色还算像吧,语调也还算正常。但是tts模型完全没有考虑情感信息,做音声别想了,只能说点怪话。如果做vc可能效果好一点,有空再看看。不知道模型能不能公开啊。
模型代码:
https://github.com/Zz-ww/VITS-BigVGAN-SpanPSP-Chinese
数据集:
10.14、10.15录播,根据字幕文件切片,韵律词手标的,标了900条吧大概。最好不要有背景人声BGM,不好分离。
效果:(凑活看吧,墙内的link发不出来)
https://drive.google.com/file/d/1mK0TSXx7tSwPABvxD-5zOiiIWjo8dsOx/view?usp=sharing
音色还算像吧,语调也还算正常。但是tts模型完全没有考虑情感信息,做音声别想了,只能说点怪话。如果做vc可能效果好一点,有空再看看。不知道模型能不能公开啊。