虽然有些可以看看的结果，但loss 曲线不太正常，特别是g_loss和d_loss，请教一下

Question

虽然有些可以看看的结果，但loss 曲线不太正常，特别是g_loss和d_loss，请教一下

daikankan opened this issue a year ago · comments

Can commented a year ago

请教一下这样的loss曲线是否正常，感觉判别器太强了，起不到指导监督作用，可以看看作者的loss曲线吗？
我用自己的三维模型，训练的结果：
源图：

驱动图：

结果：

NetEase-GameAI · Answer 1 · Tue Mar 21 2023 15:17:42 GMT+0800 (China Standard Time)

差不多是你这样吧我这边其实gan loss加的比较小的起主要作用的还是其他的loss

Can · Answer 2 · Tue Mar 21 2023 15:44:21 GMT+0800 (China Standard Time)

@NetEase-GameAI 好的，再请教个问题，这些loss之间的平衡，感觉差异挺大的，需要维持现有的量级吗？平衡成相同的量级可行吗？

NetEase-GameAI · Answer 3 · Tue Mar 21 2023 18:03:16 GMT+0800 (China Standard Time)

应该不行 reconstruction要占主要的

Can · Answer 4 · Thu Mar 23 2023 18:54:35 GMT+0800 (China Standard Time)

@NetEase-GameAI 感谢回复，还想请教个问题：motion_net和SPADE里面的卷积都替换成mobilenet_v2中的InvertedResidual，对效果影响大吗？现有模型是否还有比较大的压缩空间？

NetEase-GameAI · Answer 5 · Thu Mar 23 2023 18:57:30 GMT+0800 (China Standard Time)

跟你具体应用有关，如果对质量要求不太高的情况下，应该还有优化空间吧。我测试下来，再当前框架下，不太可能再大幅压缩了。

Can · Answer 6 · Tue Apr 25 2023 17:09:28 GMT+0800 (China Standard Time)

@NetEase-GameAI 你好，想和大佬交流一下我目前遇到几个问题：a、图片驱动图片还可以（相似度还在提升），但用视频人脸驱动图片人脸的结果，背景动得厉害，如下5所示，可否交流一下如何提升驱动结果的真实感？特别是背景抖动问题，还是说只能通过分割去规避类似问题？b、生成结果在边界处会有明显痕迹，如高亮，或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时，生成得不理想，请问大佬在做这个任务时，是否会对样本对进行对齐，校准？（校准更容易学习，但为了保证背景不动，我目前不做校准，保留了样本对之间原有的平移旋转和缩放，但模型似乎难以学到对背景的补齐能力（如impainting））
1、原始图片人脸：

2、驱动图片人脸：

3、由2驱动1，生成的图片人脸：

4、驱动视频人脸：
https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4
5、由4驱动1，生成的视频人脸：
https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4

WX1999 · Answer 7 · Tue Apr 25 2023 17:19:28 GMT+0800 (China Standard Time)

@NetEase-GameAI 你好，想和大佬交流一下我目前遇到几个问题：a、图片驱动图片还可以（相似度还在提升），但用视频人脸驱动图片人脸的结果，背景动得厉害，如下5所示，可否交流一下如何提升驱动结果的真实感？特别是背景抖动问题，还是说只能通过分割去规避类似问题？b、生成结果在边界处会有明显痕迹，如高亮，或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时，生成得不理想，请问大佬在做这个任务时，是否会对样本对进行对齐，校准？（校准更容易学习，但为了保证背景不动，我目前不做校准，保留了样本对之间原有的平移旋转和缩放，但模型似乎难以学到对背景的补齐能力（如impainting）） 1、原始图片人脸： 2、驱动图片人脸： 3、由2驱动1，生成的图片人脸： 4、驱动视频人脸： https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4 5、由4驱动1，生成的视频人脸： https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4

问题一好像是因为如果你使用的3DMM模型是针对单帧图像的话就会存在抖动，可能基于视频序列的3DMM模型的效果会更好。
另外想问您，训练的时候是只训练reenact部分，fitting部分是冻结参数的嘛？

Can · Answer 8 · Mon May 08 2023 10:11:55 GMT+0800 (China Standard Time)

@wong00 全部重训的，我的驱动因子不一样了（作者是基于自己厂的3DMM模型，但他们厂应该不同意开源的），我只能基于自有的资源来构建，所以重写了很多模块了

WX1999 · Answer 9 · Tue May 16 2023 17:24:19 GMT+0800 (China Standard Time)

@wong00 全部重训的，我的驱动因子不一样了（作者是基于自己厂的3DMM模型，但他们厂应该不同意开源的），我只能基于自有的资源来构建，所以重写了很多模块了

感谢。
请问您数据集预处理了多久？另外，关键点和头部姿态都是提前生成好，还是在训练的时候边生成，边渲染呢？

Can · Answer 10 · Wed May 31 2023 15:00:52 GMT+0800 (China Standard Time)

大家是不是都去做 diffusion model 了？其实这个也挺有意思的，目前的效果：

源人脸：

驱动源（图片+蚂蚁呀嘿视频+talking视频）：

myyh.mp4

m_1.mp4

生成效果：

source_myyh.mp4

source_m_1.mp4

原作者效果：

可能作者用了他们比较小的三维模型，精准度好像还不太够（DECA就更差了），如下：

如果作者能放一些视频效果出来就好了，探讨一下这类FOMM方法的上限究竟能达到怎样的效果，不过个人感觉三维模型好像很难把五官关键点拟合得很准，但是可以保证人脸shape。

WX1999 · Answer 11 · Mon Jun 12 2023 10:09:25 GMT+0800 (China Standard Time)

大家是不是都去做 diffusion model 了？其实这个也挺有意思的，目前的效果：

源人脸：

驱动源（图片+蚂蚁呀嘿视频+talking视频）：

myyh.mp4
m_1.mp4
生成效果：

source_myyh.mp4
source_m_1.mp4

你上传的这几个视频有几个看不了

Can · Answer 12 · Mon Jun 12 2023 19:55:32 GMT+0800 (China Standard Time)

@wong00
wget https://user-images.githubusercontent.com/20749514/245128317-bbb88b2f-73a0-4145-b208-c154453ad71f.mp4
wget https://user-images.githubusercontent.com/20749514/245128348-dcc82667-73b0-4513-8a67-1582c52e517a.mp4

WX1999 · Answer 13 · Tue Jun 13 2023 11:14:19 GMT+0800 (China Standard Time)

@wong00 wget https://user-images.githubusercontent.com/20749514/245128317-bbb88b2f-73a0-4145-b208-c154453ad71f.mp4 wget https://user-images.githubusercontent.com/20749514/245128348-dcc82667-73b0-4513-8a67-1582c52e517a.mp4

好像驱动效果还可以但背景怎么抖动这么厉害是直接拼接回原图的吗

WX1999 · Answer 14 · Mon Jun 19 2023 23:02:33 GMT+0800 (China Standard Time)

@daikankan 请问你在训练的时候可视化结果正常吗？目前训练至15个epoch 结果是这样

QuantJia · Answer 15 · Mon Aug 21 2023 15:49:12 GMT+0800 (China Standard Time)

大家是不是都去做 diffusion model 了？其实这个也挺有意思的，目前的效果：

源人脸：

驱动源（图片+蚂蚁呀嘿视频+talking视频）：

myyh.mp4
m_1.mp4
生成效果：

source_myyh.mp4
source_m_1.mp4
原作者效果：可能作者用了他们比较小的三维模型，精准度好像还不太够（DECA就更差了），如下：如果作者能放一些视频效果出来就好了，探讨一下这类FOMM方法的上限究竟能达到怎样的效果，不过个人感觉三维模型好像很难把五官关键点拟合得很准，但是可以保证人脸shape。