yutayamazaki / paper_reading

YOLO9000: Better, Faster, Stronger

yutayamazaki opened this issue 5 years ago · comments

YutaYamazaki commented 5 years ago

どんなもの

論文

YOLO9000: Better, Faster, Stronger

著者・所属機関

Joseph Redmon, University of Washington
Ali Farhadi, Allen Institute for AI

投稿日

2016/1225

Abstract

YOLOを改善したYOLOv2の提案

先行研究と比べて何がすごい？

技術や手法の肝はどこ？

Batch Normalization

convの後にBNを入れることで，mAPが2%上がった
BN導入でoverfittingなくdropoutを外せるようになった

High Resolution Classifier

画像サイズをYOLOの224224から448448に変更
448*448のImageNetで10epoch回してからfine-tuning
mAPが約4%上がった

Convolutional With Anchor Boxes

YOLOではbboxesを直接予測していたが，Faster-RCNNはhand-picked priorsを用いて予測
Faster-RCNNでは補正分とconfidenceを予測
YOLOの全結合層を外してanchor boxesを用いてbboxesを予測
anchor boxes導入でaccuracyは劣化するものの，1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)
大量の物体を検出できるようにしたことで，mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇

Dimension Clusters

YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに？)を人力で決定する必要があるが，それをclusteringでやる
k-meansをtrain setのbboxesで実行しより良いprior(なに？)を自動で決定する
ユークリッド距離を用いると大きいbboxesでlossが大きくなるので，以下の指標を距離として用いた(結果k=5がいい感じ)

- k=5の時点でanchor boxesを上回るスコアが出て，k=9では圧倒

Direct location prediction

YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり，特にx, yの予測が不安定になることに起因する
RPNでは以下のようにbboxesを計算する
- t_x=1でanchor box右端，t_x=-1で左端を意味する
このやり方では画像中に収まるようにbboxを予測するという制約がないので，YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
予測する領域が綺麗に収まることで学習が安定した

Fine-Grained Features

1313の特徴マップのみを使用していたYOLOとの差分として，2626の特徴マップもconcatしたことで1%のパフォーマンス向上

画像サイズを{320, 352, ..., 608}のように最小で320，最大で608になるようにランダムにreshapeした

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks