Moon0316 / T2A

Project page for "Improving Few-shot Learning for Talking Face System with TTS Data Augmentation" for ICASSP2023

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

time seqenence len diff

JaggerZr opened this issue · comments

您好,在使用您的代码时发现,hubert处理后的24层数据的fps是150fps,而您给的标签是25fps的,我看到您打代码中有rate除,但是发现最终结果predict和label的时间长度不一致,我的疑问是dtw做为loss时要保证时间长度不一致吗?输入的150fps的特征是正确的吗?

您好,hubert处理后的数据应该是50fps的,而mfcc处理后的数据是100fps的,您能否再检查一下呢?另外pred和label的时间长度可以不一致,正因此我们才用了DTW loss

抱歉,我找到问题所在了,我使用的音频文件是48khz,导致出现了hubert出现150hz的错误。

好的,那我关闭这个issue了