AI Navigate

SAVA-X: シーン適応ビュー整合と双方向クロスビュー融合によるエゴからエクソへの模倣エラー検出

arXiv cs.CV / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はエゴ→エクソ模倣エラー検出を定式化し、非同期かつ長さが異なるエゴとエクソの動画からエゴのタイムライン上の局所化ステップを必要とする。
  • クロスビュー間のドメインシフト、時間的ずれ、および冗長性を、密な動画キャプション生成および時間的アクション検出に適用されたベースライン手法を妨げる主要な課題として特定している。
  • 著者らは、これらの課題に対処するため、ビュー条件付き適応サンプリング、シーン適応ビュー埋め込み、および双方向クロスアテンション融合を特徴とする Align-Fuse-Detect フレームワーク SAVA-X を提案する。
  • EgoMe ベンチマークにおいて、SAVA-X はベースラインより一貫して AUPRC および平均 tIoU を改善しており、再現性のためのコードが GitHub で公開されている。

概要: エラー検出は、産業訓練、医療、組立の品質管理において極めて重要です。ほとんどの既存研究は単一視点設定を前提とし、第三者視点(exo)デモンストレーションを用いて第一人称視点(ego)の模倣を評価する実践的なケースには対処できません。 Ego ightarrowExo Imitation Error Detectionを定式化します: 非同期で長さが異なるegoとexoのビデオが与えられた場合、モデルはegoのタイムライン上の手順を局在化し、それぞれが誤っているかどうかを判断しなければなりません。 この設定は、視点間のドメインシフト、時系列のずれ、そして大きな冗長性を導入します。 統一プロトコルの下で、高密度動画キャプション生成と時系列アクション検出の強力なベースラインを適用し、それらがこの視点間レジームで苦戦することを示します。 その後、Align-Fuse-DetectフレームワークであるSAVA-Xを提案します: (i) 視点条件付き適応サンプリング、(ii) シーン適応型視点埋め込み、(iii) 双方向クロスアテンション融合。 EgoMeベンチマークでは、SAVA-Xはすべてのベースラインに対して一貫してAUPRCと平均tIoUを改善し、アブレーション実験はその成分の相補的な利点を確認します。 コードは https://github.com/jack1ee/SAVAX で利用可能です。