Questions about GCN-V and GCN-E

Question

Questions about GCN-V and GCN-E

JingY0604 opened this issue 4 years ago · comments

yangjing commented 4 years ago

hi, @yl-1993:

关于Learning to Cluster Faces via Confidence and Connectivity Estimation 这篇论文的idea与code，我有以下2个问题想要请教下：

我从youtube数据集中抽取了900个id作为test data，剩下的作为train data，分别通过CNN model 提取到512维的feature，作为GCN-V的input feature。分别训练了GCN-V和GCN-E。在test data上GCN-E的效果比GCN-V好一些，却比直接基于512 dim 的feature的cosine 距离直接构建graph得到的效果要差一些。因为论文中也没有youtube face数据上关于GCN-V和GCN-E相关的结论。所以想问下，我遇到的这个问题算是正常的吗？或者问题可能出现在哪里呢？
基于supervised的这种聚类算法，论文展里边是基于不同的数据集train model 然后同源数据test，在不同场景下的数据下，需要多少train data能够得到相对较好的效果呢？另外在大规模数据的聚类或者增量式聚类可以怎么用呢？

谢谢～

Lei Yang · Answer 1 · Tue Sep 08 2020 14:58:05 GMT+0800 (China Standard Time)

Hi @JingY0604 ，抱歉回复迟了，提到的两个问题回复如下：

我们还没有在YTB-Face上测试过，但我觉得从理论上这个问题是有可能出现，比较可能的原因在于数据的分布。因为YTB-Face中的人脸大多来源于视频，抽帧完之后还是存在大量很相似的人脸，也即它们的feature会非常相似。此时，如果采用GCN的aggregation，不仅可能得不到信息的加强，反而有可能出现oversmooth的问题，导致性能下降。以上是我的一些猜测，我们之后可能也做一些实验来验证一下。
如何在不同源的数据上用有监督的聚类目前还是open problem，欢迎一起来探索。以图像分类的监督学习为例，当测试数据非同源时，往往都需要做一个domain transfer，在聚类中的一个特殊点在于，可以从feature和graph structure两个方面考虑。例如可能在互联网视频和监控视频两个domain中，它们通过CNN提取出来的feature可能差异很大，但是structure可能是非常类似的。
关于增量聚类有一些讨论可见 #30

liupengucas · Answer 2 · Tue Dec 08 2020 16:30:17 GMT+0800 (China Standard Time)

hi, @yl-1993:

关于Learning to Cluster Faces via Confidence and Connectivity Estimation 这篇论文的idea与code，我有以下2个问题想要请教下：

我从youtube数据集中抽取了900个id作为test data，剩下的作为train data，分别通过CNN model 提取到512维的feature，作为GCN-V的input feature。分别训练了GCN-V和GCN-E。在test data上GCN-E的效果比GCN-V好一些，却比直接基于512 dim 的feature的cosine 距离直接构建graph得到的效果要差一些。因为论文中也没有youtube face数据上关于GCN-V和GCN-E相关的结论。所以想问下，我遇到的这个问题算是正常的吗？或者问题可能出现在哪里呢？

基于supervised的这种聚类算法，论文展里边是基于不同的数据集train model 然后同源数据test，在不同场景下的数据下，需要多少train data能够得到相对较好的效果呢？另外在大规模数据的聚类或者增量式聚类可以怎么用呢？

谢谢～

您好，请问一下怎么构建特征的二进制bin文件哈，我现在的是feature.npy，但是不知道怎么转成二进制bin文件，还望告知，谢谢！