FACEGOOD / FACEGOOD-Audio2Face

http://www.facegood.cc

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

嘴形抖动问题?

Owen1234560 opened this issue · comments

你好,非常感谢开源的项目!
我采用code/test/AiSpeech/res/里的音频输出116维的blendshape系数,然后转换成52维的系数。
经过可视化发现,嘴形抖动的厉害,是不是我在转换的时候出现问题了?还是这是正常的现象?
语音采用的xxx_00002.wav,模型默认的zsmeif.pb。
https://user-images.githubusercontent.com/35532273/155094432-121eb9ed-4fe5-439e-9386-b8519570c70e.mp4

commented

你好,请问你是怎么转换到52维的blendshape的呢?

你好,请问你是怎么转换到52维的blendshape的呢?
根据这个excel表格,Voice2Face/doc/Voice2Face_blendshape2ARkit.xlsx

commented

可能是合成的方式问题,我们可以在一些争议的融合点只用某一个bs,而不用全部的。也可以加一些后处理的滤波算法实时,比如卡尔曼或者One Euro filter

可能是合成的方式问题,我们可以在一些争议的融合点只用某一个bs,而不用全部的。也可以加一些后处理的滤波算法实时,比如卡尔曼或者One Euro filter
谢谢指导,我再问下,网络输出的bs系数取值范围是0-1?还是-1到1?我见有的值是小于0的。

commented

我使用这个Voice2Face_blendshape2ARkit.xlsx时,感觉映射关系有点问题,参考这个 #21 issue,请问你是怎么映射的呢?比如jawOpen这个表情,按照这个表格对应maya的就是mouthStretch_c,这个感觉不太对。我整个渲染出来的人脸下巴不动。

commented

我使用这个Voice2Face_blendshape2ARkit.xlsx时,感觉映射关系有点问题,参考这个 #21 issue,请问你是怎么映射的呢?比如jawOpen这个表情,按照这个表格对应maya的就是mouthStretch_c,这个感觉不太对。我整个渲染出来的人脸下巴不动。

我会抽时间重新复查下这个问题,过几天给个准确答复

commented

我使用这个Voice2Face_blendshape2ARkit.xlsx时,感觉映射关系有点问题,参考这个 #21 issue,请问你是怎么映射的呢?比如jawOpen这个表情,按照这个表格对应maya的就是mouthStretch_c,这个感觉不太对。我整个渲染出来的人脸下巴不动。

我会抽时间重新复查下这个问题,过几天给个准确答复

嗯嗯 辛苦了 我开始以为是我的模型训练问题,我直接用你们数据集的label进行映射后渲染,就和我模型输出渲染的效果一样,jawOpen这个表情映射出来数据集里面就是全为0,我不知道上面这位是怎么使用这个映射表的,我又查看了你们服务端以及推理的代码,确认label中表情顺序就是模型输出的顺序,所以不知道问题出在哪里了,谢谢指教~

commented

我使用这个Voice2Face_blendshape2ARkit.xlsx时,感觉映射关系有点问题,参考这个 #21 issue,请问你是怎么映射的呢?比如jawOpen这个表情,按照这个表格对应maya的就是mouthStretch_c,这个感觉不太对。我整个渲染出来的人脸下巴不动。

我会抽时间重新复查下这个问题,过几天给个准确答复

但是如果是映射关系不对的话,上面展示的视频又是如何得到的呢,所以我一直以为是自己的打开方式不对,但是全流程都定位了,也没找到原因。我是从1119那个38个表情映射到arkit52个表情

可能是合成的方式问题,我们可以在一些争议的融合点只用某一个bs,而不用全部的。也可以加一些后处理的滤波算法实时,比如卡尔曼或者One Euro filter
谢谢指导,我再问下,网络输出的bs系数取值范围是0-1?还是-1到1?我见有的值是小于0的。

用 Numpy.convolve 平滑一下,抖动全消效果非常丝滑,感谢开源

我使用这个Voice2Face_blendshape2ARkit.xlsx时,也同样遇到映射关系的问题,请查一下这个正确的映射关系。按照这个表格对应mouthStretch_c嘴巴不会张开。

commented

convolve

你好, 你有测试过泛化性吗,还是用他的测试用例

commented

可能是合成的方式问题,我们可以在一些争议的融合点只用某一个bs,而不用全部的。也可以加一些后处理的滤波算法实时,比如卡尔曼或者One Euro filter
谢谢指导,我再问下,网络输出的bs系数取值范围是0-1?还是-1到1?我见有的值是小于0的。

用 Numpy.convolve 平滑一下,抖动全消效果非常丝滑,感谢开源

能分享下实现方法吗?同样遇到嘴型抖动问题了,感谢~~

请问你是如何从blendshape渲染出这个3d图像的,望解答,谢谢大佬