概要: 言語・視覚モデル(VLMs)は通常、動画推論に静的な初期フレームに依存しており、そのため推論プロセスが進むにつれて不可欠な動的情報を取り込む能力が制限されます。Chain-of-Thought(CoT)に追加のフレーム情報を補強する既存手法では、しばしばCoTの品質が最適ではなかったり、仮想的または反事実的なシナリオに対して視覚情報を統合するという重要な能力が欠けていたりします。本研究では、Act-to-See(Act2See)という新しい枠組みを提案します。これは、VLMがテキストのCoTの中で動画フレームを能動的に挿入(interleave)できるようにすることで、能動的な視覚知覚を可能にします。Act2Seeは、最前線のVLMによって生成された高品質データセット上での教師あり微調整(SFT)によって開発されます。これらの推論トレースには、既存のフレームを取得するための能動的な呼び出しか、あるいは新しいフレームを生成するための呼び出しのいずれかが統合されており、品質を保証するために、人手で注釈されたCoTに対して厳密に検証されています。このアプローチは、創発的な能力を育みます。推論時にモデルは、必要な視覚的根拠を検索すべきか、あるいは統合(synthesize)すべきかを能動的に判断します。Act2Seeは、VideoEspressoやViTIBといった難しいベンチマークで新たな最先端の結果を確立し、またVideo-MME、EgoNormia、VCR-Benchにおいて、同等またはより大規模なモデルを上回る性能を示し、動画推論のための能動的視覚知覚をVLMに実現するための前進を実証します。
Act2See:ビデオ推論のための創発的な能動的視覚知覚
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Vision-Language Models(VLM)はビデオ推論で最初の静的フレームに依存しがちで、推論が進むにつれて必要な動的情報を取り込むことが難しい。
- 提案手法のAct-to-See(Act2See)では、テキストのChain-of-Thought(CoT)内にVLMがビデオフレームを能動的に挿入することで、視覚情報の統合や仮説/反実仮想シナリオでの推論を改善する。
- Act2Seeは、最先端のVLMが生成した高品質な推論トレースデータで教師あり微調整(SFT)を行い、既存フレームの取得や新規フレーム生成といった能動的ステップを人手で検証して品質を担保している。
- 推論時には、モデルが必要な視覚的根拠を得るために「既存フレームを検索するべきか」「合成すべきか」を動的に判断する。
- 評価では、VideoEspressoやViTIBで新たな最先端(SOTA)を達成し、他の複数のビデオ推論ベンチマークでも同等・より大きいモデルに対して優位性を示した。



