NetEase-GameAI / Face2FaceRHO

The Official PyTorch Implementation for Face2Face^ρ (ECCV2022)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

虽然有些可以看看的结果,但loss 曲线不太正常,特别是g_loss和d_loss,请教一下

daikankan opened this issue · comments

commented

res_512_3
请教一下这样的loss曲线是否正常,感觉判别器太强了,起不到指导监督作用,可以看看作者的loss曲线吗?
我用自己的三维模型,训练的结果:
源图:
1563
驱动图:
5221
结果:
result_0

差不多是你这样吧 我这边其实gan loss加的比较小的 起主要作用的还是其他的loss

commented

@NetEase-GameAI 好的,再请教个问题,这些loss之间的平衡,感觉差异挺大的,需要维持现有的量级吗?平衡成相同的量级可行吗?

应该不行 reconstruction要占主要的

commented

@NetEase-GameAI 感谢回复,还想请教个问题:motion_net和SPADE里面的卷积都替换成mobilenet_v2中的InvertedResidual,对效果影响大吗?现有模型是否还有比较大的压缩空间?

跟你具体应用有关,如果对质量要求不太高的情况下,应该还有优化空间吧。我测试下来,再当前框架下,不太可能再大幅压缩了。

commented

@NetEase-GameAI 你好,想和大佬交流一下我目前遇到几个问题:a、图片驱动图片还可以(相似度还在提升),但用视频人脸驱动图片人脸的结果,背景动得厉害,如下5所示,可否交流一下如何提升驱动结果的真实感?特别是背景抖动问题,还是说只能通过分割去规避类似问题?b、生成结果在边界处会有明显痕迹,如高亮,或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时,生成得不理想,请问大佬在做这个任务时,是否会对样本对进行对齐,校准?(校准更容易学习,但为了保证背景不动,我目前不做校准,保留了样本对之间原有的平移旋转和缩放,但模型似乎难以学到对背景的补齐能力(如impainting))
1、原始图片人脸:
source
2、驱动图片人脸:
driving
3、由2驱动1,生成的图片人脸:
res
4、驱动视频人脸:
https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4
5、由4驱动1,生成的视频人脸:
https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4

commented

@NetEase-GameAI 你好,想和大佬交流一下我目前遇到几个问题:a、图片驱动图片还可以(相似度还在提升),但用视频人脸驱动图片人脸的结果,背景动得厉害,如下5所示,可否交流一下如何提升驱动结果的真实感?特别是背景抖动问题,还是说只能通过分割去规避类似问题?b、生成结果在边界处会有明显痕迹,如高亮,或异常的颜色。c、当驱动人脸角度【pitch, yaw, roll】变化比较大时,生成得不理想,请问大佬在做这个任务时,是否会对样本对进行对齐,校准?(校准更容易学习,但为了保证背景不动,我目前不做校准,保留了样本对之间原有的平移旋转和缩放,但模型似乎难以学到对背景的补齐能力(如impainting)) 1、原始图片人脸: source 2、驱动图片人脸: driving 3、由2驱动1,生成的图片人脸: res 4、驱动视频人脸: https://user-images.githubusercontent.com/20749514/234226701-88c57755-b7d5-4e7a-a952-53a6d3b188d4.mp4 5、由4驱动1,生成的视频人脸: https://user-images.githubusercontent.com/20749514/234226827-62e41eba-c2a8-4bb3-86b2-d3a9445ffc94.mp4

问题一好像是因为 如果你使用的3DMM模型是针对单帧图像的话就会存在抖动,可能基于视频序列的3DMM模型的效果会更好。
另外想问您,训练的时候是只训练reenact部分,fitting部分是冻结参数的嘛?

commented

@wong00 全部重训的,我的驱动因子不一样了(作者是基于自己厂的3DMM模型,但他们厂应该不同意开源的),我只能基于自有的资源来构建,所以重写了很多模块了

commented

@wong00 全部重训的,我的驱动因子不一样了(作者是基于自己厂的3DMM模型,但他们厂应该不同意开源的),我只能基于自有的资源来构建,所以重写了很多模块了

感谢。
请问您数据集预处理了多久? 另外,关键点和头部姿态都是提前生成好,还是在训练的时候边生成,边渲染呢?

commented

大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:

源人脸:
source

驱动源(图片+蚂蚁呀嘿视频+talking视频):
driving

myyh.mp4
m_1.mp4

生成效果:
res_512

source_myyh.mp4
source_m_1.mp4

原作者效果:
result
可能作者用了他们比较小的三维模型,精准度好像还不太够(DECA就更差了),如下:
result
如果作者能放一些视频效果出来就好了,探讨一下这类FOMM方法的上限究竟能达到怎样的效果,不过个人感觉三维模型好像很难把五官关键点拟合得很准,但是可以保证人脸shape。

commented

大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:

源人脸: source

驱动源(图片+蚂蚁呀嘿视频+talking视频): driving

myyh.mp4
m_1.mp4
生成效果: res

source_myyh.mp4
source_m_1.mp4

你上传的这几个视频有几个看不了

commented

@daikankan 请问你在训练的时候可视化结果正常吗? 目前训练至15个epoch 结果是这样
Snipaste_2023-06-19_23-01-22

大家是不是都去做 diffusion model 了? 其实这个也挺有意思的,目前的效果:

源人脸: source

驱动源(图片+蚂蚁呀嘿视频+talking视频): driving

myyh.mp4
m_1.mp4
生成效果: res_512

source_myyh.mp4
source_m_1.mp4
原作者效果: result 可能作者用了他们比较小的三维模型,精准度好像还不太够(DECA就更差了),如下: result 如果作者能放一些视频效果出来就好了,探讨一下这类FOMM方法的上限究竟能达到怎样的效果,不过个人感觉三维模型好像很难把五官关键点拟合得很准,但是可以保证人脸shape。

m_1 效果不错啊, 是生成的脖子以上吗

commented

给大家看看最新的效果,感觉快到极限了> <,除非有更好的数据集,更强大的机器来训大模型,这类方法感觉对于大角度还是容易变糊(我指直接融合,不依赖分割),牙齿不太好监督:

mnls

mnls_f0.mp4
driving_f0.mp4
driving_ljq.mp4
driving_0.mp4
source_f0.mp4
source_ljq.mp4
source_0.mp4

其中后二个驱动视频:

ljq.mp4

0

不知道你们有没有尝试过类似 https://github.com/NVlabs/face-vid2vid 的方法,不知道会不会有质的提升?