自分視点（エゴセントリック）映像における正確な手の接触瞬間の検出

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エゴセントリック（第一人称）映像における、手と物体が接触し始める瞬間の“フレーム単位”検出に取り組む。これは、AR、HCI、支援技術、ロボット学習などにおいて、接触の手がかりが動作のタイミングを決めるのに重要である。
手に情報を与えた文脈拡張（Hand-informed Context Enhanced: HiCE）モジュールを提案する。手領域の時空間特徴と、周辺の文脈を組み合わせ、クロスアテンションにより、接触近傍における微細な動きや遮蔽により適切に対処する。
手の把持を意識した損失（grasp-aware loss）とソフトラベルにより手の姿勢と、真の接触と“ほぼ接触”のフレームで典型的な動作ダイナミクスを強調するよう手法を改善する。
さらに、TouchMomentというエゴセントリック向けデータセットを提示する。4,021本の動画と、100万フレーム以上にわたる8,456個の注釈付き接触モーメントを含む。
TouchMomentにおいて、厳密な2フレーム許容の評価を用いると、HiCEはイベント検出性能を改善し、従来の最先端ベースラインに対して平均精度（average precision）で16.91%上回る。

Abstract

私たちは、エゴセントリック（主観視点）ビデオにおいて、手が物体に接触するときの正確な瞬間を検出するという難しい課題に取り組みます。このフレームレベルの検出は、拡張現実、ヒューマンコンピュータインタラクション、支援技術、ロボット学習の応用において重要です。そこでは、接触の開始が行動の開始または完了を示す信号となります。接触近傍での手の微細な動きのばらつき、頻繁な遮蔽、きわめて細かな操作のパターン、そして一人称視点に固有の運動ダイナミクスにより、時間的に正確な検出は特に困難です。これらの課題に対処するために、私たちは、クロスアテンション機構を通じて手領域とその周辺文脈から時空間特徴を活用し、潜在的な接触パターンを識別することを学習する、Hand-informed Context Enhancedモジュール（HiCE；`high-see'と発音）を提案します。さらに、把持を考慮したロスとソフトラベルで精緻化し、接触イベントに特有の手の姿勢パターンと運動ダイナミクスを強調することで、モデルが接近状態のフレームと実際の接触フレームを区別できるようにします。また、1,000,000フレーム以上にわたって合計4,021本の動画と8,456の注釈付き接触モーメントを含む、エゴセントリックなデータセットTouchMomentを導入します。TouchMomentでの実験では、予測が正解となる条件を、予測がグラウンドトゥルースのモーメントから2フレーム以内に入った場合に限るという厳密な評価基準の下で、本手法は大幅な改善を示し、最先端のイベントスポッティングのベースラインを平均適合率（average precision）で16.91%上回ることが確認されています。