InstrAct: 教示ビデオにおける行動中心の理解に向けて

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、教示ビデオの理解には、きめ細かな行動認識と時間的関係のモデリングが必要だと主張する。しかし既存のVideo Foundation Model（VFM）は、ノイズの多いWebによる教師データや、「静的バイアス」によって、運動に関する手がかりよりも物体を重視してしまうため、これが難しい。
InstrActionは、そのための事前学習フレームワークとして提案される。ノイズのあるキャプションをフィルタリングし、対照学習のために行動中心のハードネガティブを生成し、冗長なビデオ符号化から運動に関係するトークンを抽出するためにAction Perceiverを用いる。
InstrActionは、2つの補助目的によって、時間的およびクロスモーダルな理解をさらに改善する。具体的には、逐次構造の整列のためのDTW-Alignと、ビデオと指示文の間のより強い対応付けのためのMasked Action Modeling（MAM）である。
著者らは、行動中心の理解を評価するためのInstrAct Benchを導入し、意味推論、手順的ロジック、きめ細かな検索といった課題において、最先端のVFMに対して一貫した改善が得られることを報告している。

要旨: 教示動画を理解するには、細粒度の行動を認識し、それらの時間的関係をモデル化する必要がありますが、これは現在のビデオ基盤モデル（VFM）にとって依然として困難です。この難しさは、ノイズを含むWebによる教師データ（ウェブ監督）と、広く存在する「静的バイアス」に起因しています。すなわち、モデルが運動（モーション）の手がかりではなく物体に依存してしまうのです。これに対処するため、私たちは教示動画における行動中心の表現のための事前学習フレームワークであるInstrActionを提案します。まず、データ駆動型の方策を導入し、ノイズのあるキャプションをフィルタリングするとともに、対比学習において行動を物体から切り離すための行動中心のハードネガティブを生成します。視覚特徴のレベルでは、Action Perceiverが冗長な動画エンコーディングから運動に関連するトークンを抽出します。対比学習に加えて、2つの補助目的を導入します。逐次的な時間構造をモデル化するためのダイナミック・タイム・ワーピング整合（DTW-Align）と、クロスモーダルな対応付け（グラウンディング）を強化するためのMasked Action Modeling（MAM）です。最後に、行動中心の理解を評価するためのInstrAct Benchを導入します。私たちの手法は、意味推論、手順論理、細粒度の検索というタスクにおいて、最先端のVFMに対して一貫して優れた性能を示します。

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

注目集める「AIエージェント」、一問一答型から自律的なシステムに

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

InstrAct: 教示ビデオにおける行動中心の理解に向けて

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

注目集める「AIエージェント」、一問一答型から自律的なシステムに

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず