概要
・映像から人の行動を理解するためには、映像フレームごとに人の手や接触している物体の位置を検出することが重要です
・物体検出器の学習には、2枚の学習画像を重ね合わせてデータの偏りを緩和するMixupと呼ばれる手法がデータ拡張に有効であることが経験的に示されています
・しかし、手指オブジェクト検出においては、2枚の手指操作画像を混合すると、特定の領域に手やオブジェクトが集中し、オブジェクト境界の識別能力が低下するなど、意図しないバイアスが発生します
・我々は、手指オブジェクト検出における意図しない影響を軽減しつつ、データ混合の正則化を活用したBackground Mixupと呼ばれるデータ拡張手法を提案します
・手と接触している物体が写っている2枚の画像を混合するのではなく、関係のない背景画像とターゲット学習画像を混合し、その混合画像を用いて検出器を学習させます
・実験により、提案手法は、教師あり学習と半教師あり学習の両方において、効果的に誤検出を減らし、手・物体検出の性能を向上させることができることが示された。
リンク
Background Mixup Data Augmentation for Hand and Object-in-Contact Detection
Detecting the positions of human hands and objects-in-contact (hand-object detection) in each video frame is vital for understanding human activities from video...