Plachtaa / FAcodec

Training code for FAcodec presented in NaturalSpeech3

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

你好,我想请问下如何用train中训练出的PTH文件进行推理以及想请教下不用任何标签也可以解耦的**

rainbowjack opened this issue · comments

项目中的reconstruct和redecoder reconstruct似乎只能针对预训练文件,也就是bin,我想请教下train训练的pth文件能否用于推理
还有就是想请问不用任何标签也可以训练出解耦音频要素的方法是在哪个文件中体现的
感谢解答

非常抱歉问题没有及时解决,现在已经更新了推理脚本以支持加载自定义checkpoint

至于.pth和.bin并没有本质区别,只是后缀不一样而已,使用torch.load得到的结果是一样的

关于解耦的原理,具体请参展NS3的原论文。大概而言,是使用了gradient reversal在鼓励encoder抽取有关content的信息的同时,阻止其抽取speaker相关的信息。原论文中使用的frame level phoneme标签以及speaker标签,这里改为使用预训练的CTC ASR以及speaker verification模型的pseudo label。由于预测目标只起到引导作用,所以这里使用伪标签对最终训练的codec性能几乎不会有影响

非常感谢