Insight-V++: 多モーダル大規模言語モデルを用いた高度な長期的視覚推論へ

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Insight-V++は、Insight-Vから進化した統一的なマルチエージェント視覚推論フレームワークを提示する。これは、マルチモーダルLLMにおける長期的推論のための時空間アーキテクチャへと進化する。
  • このフレームワークは、推論エージェントが広範な分析チェーンを構築し、要約エージェントが最終結果を批判的に評価・要約する二重エージェント構成を採用する。
  • 時空間推論と堅牢性を高める2つの新しいアルゴリズム、ST-GRPOとJ-GRPOを導入し、要約エージェントからの信頼性の高いフィードバックを通じて自己改善ループを実現する。
  • スケーラブルなデータ生成パイプラインは自律的に、画像および動画ドメイン全体にわたる複雑な推論経路を人間のラベリングなしで生成し、LLaVA-NeXTおよびQwen2.5-VLなどのベースモデルでの実験は、従来の視覚認識タスクを維持しつつ顕著な性能向上を示す。

要旨: 大規模言語モデル(LLMs)は、拡張されたテスト時推論を通じて、顕著な信頼性と高度な能力を達成しています。
しかし、これらの能力をマルチモーダル大規模言語モデル(MLLMs)へ拡張することは、質の高い長連鎖推論データと最適化された訓練パイプラインの深刻な不足のため、依然として重要な課題です。
このギャップを埋めるため、私たちは基盤となる画像中心のモデル Insight-V から、一般化された時空間アーキテクチャ Insight-V++ へ体系的に進化する、統一的なマルチエージェント視覚推論フレームワークを提示します。
最初に、多階層評価を備え、画像と動画の領域を横断する構造化された複雑な推論経路を自動的に合成する、スケーラブルなデータ生成パイプラインを提案します。人間の介入なしに自律的に動作します。
このような複雑なデータを用いて直接MLLMを監督すると、最適な結果を得られないことを認識し、長大な分析チェーンを実行する推論エージェントと、最終結果を批判的に評価・抽出する要約エージェントを組み込んだデュアルエージェント構成を設計します。
初期のフレームワークは Direct Preference Optimization (DPO) を用いていましたが、そのオフポリシー性は強化学習の可能性を根本的に制約しました。
これらの限界を克服し、特に長期の動画理解に向けて、Insight-V++ は ST-GRPO と J-GRPO の二つの新規アルゴリズムを導入し、時空間推論を強化し、評価の頑健性を向上させます。
要約エージェントからの信頼できるフィードバックを活用することにより、反復的な推論経路生成プロセスを導き、マルチエージェントシステム全体を継続的に自己改善ループで再訓練します。
LLaVA-NeXT や Qwen2.5-VL などのベースモデルを対象とした広範な実験は、難解な画像・動画推論ベンチマーク全体で顕著な性能向上を示す一方、従来の知覚重視タスクにおける高い能力も維持します。
返却形式: {"translated": "翻訳済みHTML"}