POINTS-Seeker: ゼロから学習するマルチモーダル・エージェント型探索モデルのために

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模マルチモーダルモデル(LMM)は静的なパラメトリック知識に制約されるため、外部世界からの証拠回収には能動的なマルチモーダル探索が必要だと主張している。
  • 既存のLMMに探索を追加モジュールとして後付けするのではなく、マルチモーダルなエージェント型探索モデルをエンドツーエンドで構築することを提案する。
  • 著者らは、「Agentic Seeding」を導入し、学習の初期段階からエージェントのような振る舞いを引き出す学習条件を作り出している。
  • さらに、対話履歴が長くなるにつれて真の根拠(ground-truth evidence)を見つけにくくなる、長期ホライズンの相互作用におけるボトルネックを特定し、履歴を考慮した適応的圧縮手法である「V-Fold」によってこれを緩和する。
  • 「POINTS-Seeker-8B」を公開し、6つのベンチマークにおいて、従来のマルチモーダル・エージェント型探索モデルを上回ると報告している。特に、長期ホライズンで知識を要する視覚推論を改善している。

概要: 大規模マルチモーダルモデル(LMM)は印象的な視覚認識を示しますが、静的なパラメトリック知識によって、認識論的に制約されています。この境界を超えるために、証拠検索のために外部環境と能動的に相互作用するマルチモーダル検索モデルが採用されてきました。一般的なパラダイムとは異なり、検索ツールをモジュール拡張として一般的なLMMに単に後付けするのではなく、ゼロからマルチモーダルなエージェント的検索モデルを構築する可能性を探ります。具体的には、次の貢献を行います:(i)エージェント的挙動を引き出すために必要な基礎的前駆要素を織り込むことを目的とした専用フェーズである「Agentic Seeding」を導入します。(ii)長期ホライズンの相互作用において、相互作用履歴の増大がモデルの真値(グラウンドトゥルース)の証拠を見つける能力を圧倒してしまうことで性能が頭打ちになるボトルネックを明らかにします。これを軽減するために、V-Foldを提案します。これは、最近の対話ターンを高い忠実度で保持しつつ、レンダリングによって歴史的な文脈を視覚空間へ折り畳む、適応的な履歴認識型圧縮方式です。(iii)最先端のマルチモーダル・エージェント的検索モデルである「POINTS-Seeker-8B」を開発します。これは、6つの多様なベンチマークすべてにおいて、既存モデルを一貫して上回る性能を発揮し、長期ホライズンで知識集約的な視覚推論に関する課題を実質的に解決します。