yl-1993 / learn-to-cluster

Learning to Cluster Faces (CVPR 2019, CVPR 2020)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Questions about GCN-V and GCN-E

JingY0604 opened this issue · comments

hi, @yl-1993:

关于Learning to Cluster Faces via Confidence and Connectivity Estimation 这篇论文的idea与code,我有以下2个问题想要请教下:

  1. 我从youtube数据集中抽取了900个id作为test data,剩下的作为train data,分别通过CNN model 提取到512维的feature,作为GCN-V的input feature。分别训练了GCN-V和GCN-E。在test data上GCN-E的效果比GCN-V好一些,却比直接基于512 dim 的feature的cosine 距离直接构建graph得到的效果要差一些。因为论文中也没有youtube face数据上关于GCN-V和GCN-E相关的结论。所以想问下,我遇到的这个问题算是正常的吗?或者问题可能出现在哪里呢?
  2. 基于supervised的这种聚类算法,论文展里边是基于不同的数据集train model 然后同源数据test,在不同场景下的数据下,需要多少train data能够得到相对较好的效果呢?另外在大规模数据的聚类或者增量式聚类可以怎么用呢?

谢谢~

Hi @JingY0604 ,抱歉回复迟了,提到的两个问题回复如下:

  1. 我们还没有在YTB-Face上测试过,但我觉得从理论上这个问题是有可能出现,比较可能的原因在于数据的分布。因为YTB-Face中的人脸大多来源于视频,抽帧完之后还是存在大量很相似的人脸,也即它们的feature会非常相似。此时,如果采用GCN的aggregation,不仅可能得不到信息的加强,反而有可能出现oversmooth的问题,导致性能下降。以上是我的一些猜测,我们之后可能也做一些实验来验证一下。
  2. 如何在不同源的数据上用有监督的聚类目前还是open problem,欢迎一起来探索。以图像分类的监督学习为例,当测试数据非同源时,往往都需要做一个domain transfer,在聚类中的一个特殊点在于,可以从feature和graph structure两个方面考虑。例如可能在互联网视频和监控视频两个domain中,它们通过CNN提取出来的feature可能差异很大,但是structure可能是非常类似的。
  3. 关于增量聚类有一些讨论可见 #30

hi, @yl-1993:

关于Learning to Cluster Faces via Confidence and Connectivity Estimation 这篇论文的idea与code,我有以下2个问题想要请教下:

  1. 我从youtube数据集中抽取了900个id作为test data,剩下的作为train data,分别通过CNN model 提取到512维的feature,作为GCN-V的input feature。分别训练了GCN-V和GCN-E。在test data上GCN-E的效果比GCN-V好一些,却比直接基于512 dim 的feature的cosine 距离直接构建graph得到的效果要差一些。因为论文中也没有youtube face数据上关于GCN-V和GCN-E相关的结论。所以想问下,我遇到的这个问题算是正常的吗?或者问题可能出现在哪里呢?
  2. 基于supervised的这种聚类算法,论文展里边是基于不同的数据集train model 然后同源数据test,在不同场景下的数据下,需要多少train data能够得到相对较好的效果呢?另外在大规模数据的聚类或者增量式聚类可以怎么用呢?

谢谢~

您好,请问一下怎么构建特征的二进制bin文件哈,我现在的是feature.npy,但是不知道怎么转成二进制bin文件,还望告知,谢谢!