The highest accuracy object detectors to date are based on a two-stage approach popularized by R-CNN, where a classifier is applied to a sparse set of candidate...

概要

one-stageの物体検出モデルは、two-stageの物体検出モデルに精度の面で後れを取っています
本論文の検討の結果、極端な前景と背景のクラスのアンバランスが主な原因であることがわかりました
このクラスの不均衡を解決するために、標準的なクロスエントロピーロスを再構築し、多いクラスに割り当てられる損失の重みを減らす、Focal Lossを提案します
Focal Lossにより、数が少ないクラスの学習に集中させ、予測の中に負例が多くなってしまうのを防ぎます

Focal Loss

Focal Lossは、Cross Entropyを単純に拡張したものです。
変調係数(modulating factor)である、(1-p_t)^γを追加します。

Focal Lossには、二つの性質があります。
(1) p_tが小さい場合、変調係数((1-p_t)^γ)は１に近くなり、損失は影響を受けません。ptが１に近づくと、変調係数は0になり、数が多いクラス(背景など)に対してのロスはダウンウェイトされます。
(2) focusing parameter γは分類が容易なクラスに対する重みづけの割合を調整します。γ=0のとき、FLはCEと等価であり、γを大きくすると、調整の効果が大きくなります。実験では、γ=2が最も効果的でした。
下図は、Focal Lossを視覚化したものです。γ>0に設定すると、数が多いクラス(pt>0.5)に対する相対的なロスが減少し、検出が難しいクラスにより焦点があてられるようになります。