yutayamazaki / paper_reading

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

YOLO9000: Better, Faster, Stronger

yutayamazaki opened this issue · comments

どんなもの

論文

YOLO9000: Better, Faster, Stronger

著者・所属機関

  • Joseph Redmon, University of Washington
  • Ali Farhadi, Allen Institute for AI

投稿日

2016/1225

Abstract

  • YOLOを改善したYOLOv2の提案

先行研究と比べて何がすごい?

技術や手法の肝はどこ?

Batch Normalization

  • convの後にBNを入れることで,mAPが2%上がった
  • BN導入でoverfittingなくdropoutを外せるようになった

High Resolution Classifier

  • 画像サイズをYOLOの224224から448448に変更
  • 448*448のImageNetで10epoch回してからfine-tuning
  • mAPが約4%上がった

Convolutional With Anchor Boxes

  • YOLOではbboxesを直接予測していたが,Faster-RCNNはhand-picked priorsを用いて予測

  • Faster-RCNNでは補正分とconfidenceを予測

  • YOLOの全結合層を外してanchor boxesを用いてbboxesを予測

  • anchor boxes導入でaccuracyは劣化するものの,1画像あたり1000個以上の物体を検出可能に(YOLOでは98が限界)

  • 大量の物体を検出できるようにしたことで,mAPは少し下がるがrecall(実際に正を正と予測した割合)が約7%上昇

Dimension Clusters

  • YOLOでanchor boxesを用いるときの問題の1つにbox dimensions(prior)(なに?)を人力で決定する必要があるが,それをclusteringでやる
  • k-meansをtrain setのbboxesで実行しより良いprior(なに?)を自動で決定する
  • ユークリッド距離を用いると大きいbboxesでlossが大きくなるので,以下の指標を距離として用いた(結果k=5がいい感じ)

- k=5の時点でanchor boxesを上回るスコアが出て,k=9では圧倒

Direct location prediction

  • YOLOでanchor boxesを用いる際に生じる問題のもう1つは特に学習の初期に学習が不安定になることがあり,特にx, yの予測が不安定になることに起因する
  • RPNでは以下のようにbboxesを計算する
    • t_x=1でanchor box右端,t_x=-1で左端を意味する
  • このやり方では画像中に収まるようにbboxを予測するという制約がないので,YOLOのようにグリッドセル内の相対的な位置を予測すると値が0~1に収まるのでロジスティック回帰で簡単に解ける
  • 予測する領域が綺麗に収まることで学習が安定した

Fine-Grained Features

  • 1313の特徴マップのみを使用していたYOLOとの差分として,2626の特徴マップもconcatしたことで1%のパフォーマンス向上

  • 画像サイズを{320, 352, ..., 608}のように最小で320,最大で608になるようにランダムにreshapeした

どうやって有効だと検証した?

議論はある?

次に読むべき論文は?