开源的唇语驱动模型，是从随机初始化开始训练的，还是先对Unet网络结构进行预训练后再训练唇语驱动模型呢？

Question

开源的唇语驱动模型，是从随机初始化开始训练的，还是先对Unet网络结构进行预训练后再训练唇语驱动模型呢？

gobigrassland opened this issue 2 months ago · comments

我看到用到的Unet模型参数与SD1.4模型配置参数，就是其中cross_attention_dim和in_channels的区别。
（1）唇语模型UNet： cross_attention_dim=384, in_channels=8
（2）SD1.4 UNet: cross_attention_dim=768, in_channels=4

czk32611 · Answer 1 · Thu May 23 2024 22:27:06 GMT+0800 (China Standard Time)

是从随机初始化开始训练的