chullhwan-song / Reading-Paper

Google Landmarks Dataset v2 A Large-Scale Benchmark for Instance-Level Recognition and Retrieval

chullhwan-song opened this issue 4 years ago · comments

chullhwan-song commented 4 years ago

https://arxiv.org/abs/2004.01804

chullhwan-song commented 4 years ago

Abstract

관련 내용은 Google Landmark V2 데이텃에 대한 내용
- https://github.com/cvdfoundation/google-landmark.
어떻게 모았냐는 google에서 알아서 하시고(?)ㅎ 제가 궁금한것은 이 셋으로 kaggle 대회의 대한 실험 내용임.
사실 이미, 이 내용에 대한 간단 리뷰..했었음. 보다 이 연구를 통해 보다 정확히 들여다봐야할듯
- 2018 Google Landmark Retrieval Challenge 리뷰 : [review]
- 2019 Google Landmark Retrieval Challenge 리뷰 : [review]

데이터 셋

V1보다 그리고 이전 다른 데이터 셋 보다 엄청나게 모아서 공개했다. > 보통 evaluation set으로 사용하는 것은 paris/holiday/oxford등의 관련 데이터 셋이다.
- 다른 것은 사용하지 않는 이유는 아마도 noise 문제인듯..
- V2 버전은 Noise가 많을 듯..
실제 누가 clean 버전을

실험

retrieval

ResNet101+ArcFace 의 kaggle 대회에서 우승한 케이스인듯
하늘색 사각형의 경우 - 기본적으로 이전 sota 알고리즘과 비교 > local descriptor와 결합한 case도 포함하고
kaggle 대회에서의 V2 evaluation set (당연히 공개하지 않았음)
- GLDv2-train-clean 은 GLDv1으로 finetuned된 모델을 이용하지 않았을까?(관련 paper에서는..)
- 이전 많이 사용한 metric learning 알고리즘 보다, face 에 적용되었던 softmax 류의 알고리즘이 ArcFace, cosFace가 더 좋았음 알려준다.
- 개인적인 생각은 ResNet101+ArcFace + DELF 했다면 더 좋을 수도 있을 것 같다.
- ResNet101+ArcFace 의 결과를 보면 많거나, 보다 clean한 데이터가 더 좋은 성능을 냈었음을 보여준다.
- DELG global+SP는 GLDv2 clean version으로 하면 더 좋지 않았을까?

인식

DELG는 #290 이 연구 > GD+LD를 모두 사용한 케이스가 가장 좋음.
평가 방법 = micro Average Precision () = Global Average Precision (GAP).
사실 인식 문제에, softmax만 쓰는게 아님을 보여줌.
최종 결과
- 인식 문제에서 최종적으로 filtering하는 부분이 존재
- 반면에 retrieval task에서는 classification 부분 사용
결론(이걸 더 공부)
- cosine based softmax
- GeM
- Detect-toRetrieve: Efficient Regional Aggregation for Image Search
- Unifying Deep Local and Global Features for Efficient Image Search