InstrAct: 教示ビデオにおける行動中心の理解に向けて

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、教示ビデオの理解には、きめ細かな行動認識と時間的関係のモデリングが必要だと主張する。しかし既存のVideo Foundation Model(VFM)は、ノイズの多いWebによる教師データや、「静的バイアス」によって、運動に関する手がかりよりも物体を重視してしまうため、これが難しい。
  • InstrActionは、そのための事前学習フレームワークとして提案される。ノイズのあるキャプションをフィルタリングし、対照学習のために行動中心のハードネガティブを生成し、冗長なビデオ符号化から運動に関係するトークンを抽出するためにAction Perceiverを用いる。
  • InstrActionは、2つの補助目的によって、時間的およびクロスモーダルな理解をさらに改善する。具体的には、逐次構造の整列のためのDTW-Alignと、ビデオと指示文の間のより強い対応付けのためのMasked Action Modeling(MAM)である。
  • 著者らは、行動中心の理解を評価するためのInstrAct Benchを導入し、意味推論、手順的ロジック、きめ細かな検索といった課題において、最先端のVFMに対して一貫した改善が得られることを報告している。

要旨: 教示動画を理解するには、細粒度の行動を認識し、それらの時間的関係をモデル化する必要がありますが、これは現在のビデオ基盤モデル(VFM)にとって依然として困難です。この難しさは、ノイズを含むWebによる教師データ(ウェブ監督)と、広く存在する「静的バイアス」に起因しています。すなわち、モデルが運動(モーション)の手がかりではなく物体に依存してしまうのです。これに対処するため、私たちは教示動画における行動中心の表現のための事前学習フレームワークであるInstrActionを提案します。まず、データ駆動型の方策を導入し、ノイズのあるキャプションをフィルタリングするとともに、対比学習において行動を物体から切り離すための行動中心のハードネガティブを生成します。視覚特徴のレベルでは、Action Perceiverが冗長な動画エンコーディングから運動に関連するトークンを抽出します。対比学習に加えて、2つの補助目的を導入します。逐次的な時間構造をモデル化するためのダイナミック・タイム・ワーピング整合(DTW-Align)と、クロスモーダルな対応付け(グラウンディング)を強化するためのMasked Action Modeling(MAM)です。最後に、行動中心の理解を評価するためのInstrAct Benchを導入します。私たちの手法は、意味推論、手順論理、細粒度の検索というタスクにおいて、最先端のVFMに対して一貫して優れた性能を示します。