关于更换说话人声的问题

Question

s1752729916 opened this issue 2 years ago · comments

您提供的预训练好的模型应该是基于zsmeif人声的，现在我们想换成思必驰上的男声，请问要如何准备训练数据呢？以我的理解avatary工具可以从真实人的video中生成数据，但是声音是从思必驰上合成的，怎么去和video里的每一帧去匹配呢？或者是我对整个pipeline哪里理解错了呢？谢谢！

zhangdiyu · Answer 1 · Fri Sep 30 2022 15:29:09 GMT+0800 (China Standard Time)

同样好奇这个问题

Hanson Huang · Answer 2 · Tue Nov 01 2022 16:50:20 GMT+0800 (China Standard Time)

We can use wav2vec or deepspeech to extract audio features if you have many persons' audio and bs pairs.