自分視点(エゴセントリック)映像における正確な手の接触瞬間の検出
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エゴセントリック(第一人称)映像における、手と物体が接触し始める瞬間の“フレーム単位”検出に取り組む。これは、AR、HCI、支援技術、ロボット学習などにおいて、接触の手がかりが動作のタイミングを決めるのに重要である。
- 手に情報を与えた文脈拡張(Hand-informed Context Enhanced: HiCE)モジュールを提案する。手領域の時空間特徴と、周辺の文脈を組み合わせ、クロスアテンションにより、接触近傍における微細な動きや遮蔽により適切に対処する。
- 手の把持を意識した損失(grasp-aware loss)とソフトラベルにより手の姿勢と、真の接触と“ほぼ接触”のフレームで典型的な動作ダイナミクスを強調するよう手法を改善する。
- さらに、TouchMomentというエゴセントリック向けデータセットを提示する。4,021本の動画と、100万フレーム以上にわたる8,456個の注釈付き接触モーメントを含む。
- TouchMomentにおいて、厳密な2フレーム許容の評価を用いると、HiCEはイベント検出性能を改善し、従来の最先端ベースラインに対して平均精度(average precision)で16.91%上回る。




