YOLO9000: Better, Faster, Stronger
yutayamazaki opened this issue · comments
YutaYamazaki commented
どんなもの
論文
YOLO9000: Better, Faster, Stronger
著者・所属機関
- Joseph Redmon, University of Washington
- Ali Farhadi, Allen Institute for AI
投稿日
2016/1225
Abstract
- YOLOを改善したYOLOv2の提案
先行研究と比べて何がすごい?
技術や手法の肝はどこ?
Batch Normalization
- convの後にBNを入れることで,mAPが2%上がった
- BN導入でoverfittingなくdropoutを外せるようになった
High Resolution Classifier
- 画像サイズをYOLOの224224から448448に変更
- 448*448のImageNetで10epoch回してからfine-tuning
- mAPが約4%上がった
Convolutional With Anchor Boxes
-
YOLOではbboxesを直接予測していたが,Faster-RCNNはhand-picked priorsを用いて予測
-
Faster-RCNNでは補正分とconfidenceを予測
-
YOLOの全結合層を外してanchor boxesを用いてbboxesを予測
-
anchor boxes導入でaccuracyは劣化するものの,1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)
-
大量の物体を検出できるようにしたことで,mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇
Dimension Clusters
- YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに?)を人力で決定する必要があるが,それをclusteringでやる
- k-meansをtrain setのbboxesで実行しより良いprior(なに?)を自動で決定する
- ユークリッド距離を用いると大きいbboxesでlossが大きくなるので,以下の指標を距離として用いた(結果k=5がいい感じ)
Direct location prediction
- YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり,特にx, yの予測が不安定になることに起因する
- RPNでは以下のようにbboxesを計算する
- このやり方では画像中に収まるようにbboxを予測するという制約がないので,YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
- 予測する領域が綺麗に収まることで学習が安定した
Fine-Grained Features
- 1313の特徴マップのみを使用していたYOLOとの差分として,2626の特徴マップもconcatしたことで1%のパフォーマンス向上
- 画像サイズを{320, 352, ..., 608}のように最小で320,最大で608になるようにランダムにreshapeした