盲目で目覚める：根拠のある視覚知覚のための、監督なしのエージェント軌道に対するコールドスタート最適化

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、小型ビジョン言語モデルのエージェント的振る舞いにおける頑健性とツールオーケストレーションを改善するための、教師なし（監督なし）学習フレームワークSPECTRAを提案しています。
SPECTRAはコールドスタート強化学習を用い、「Soft Structured Multi-turn Rollouts」により、エージェントがツールから得た証拠を明示的に順序立ててから統合するよう制約し、推論を視覚観測に根付かせます。
人間の嗜好ラベルなしで学習できるよう、タスク正解率・ロールアウト構造・ツール有用性を同時に最適化するマルチ目的報酬を採用しています。
確かな正解がない状況でもツールの有効性を定量化するために、新しい指標Tool Instrumental Utility（TIU）を提案しています。
複合ベンチマークおよび分布外ベンチマーク（MMMU-Pro含む）での実験により、従来手法に対してタスク精度は最大5%、ツール効率は最大9%向上したことが示されています。

要旨: 小型ビジョン・言語モデル（SVLMs）は効率的なタスク制御器ですが、多くの場合、視覚の脆さやツールのオーケストレーション（連携）の不備に悩まされます。これらの欠点を軽減するために、通常は高価な教師ありの軌跡チューニングが必要です。本研究では、自己教師あり知覚を、カスケードされたツール・ロールアウト整合によって可能にする枠組み、Self-supervised Perception Enabled by Cascaded Tool Rollout Alignment（SPECTRA）を提案します。SPECTRAは、SVLMsに対するコールドスタート強化学習を通じて、教師なしでエージェント的能力をブートストラップする枠組みです。SPECTRAは、ソフトな構造化マルチターン・ロールアウトを強制します。これは位相的制約であり、エージェントに対して、合成の前にツールから得られた証拠を明示的に順序立てて提示するよう誘導し、推論を視覚観測に効果的に基礎づけます。さらに、タスクの正確性、ロールアウト構造、ツール有用性を同時に最大化する多目的報酬信号を用いることで、人間の嗜好ラベルなしにエージェントが頑健な行動を自ら発見できるようにします。加えて、Ground Truthがない状況でツールの有効性を定量化する新しい指標であるTool Instrumental Utility（TIU）を導入します。複合ベンチマークおよび分布外（MMMU-Pro）ベンチマークにわたる大規模な評価により、SPECTRAはエージェントの軌跡を強化し、タスク精度を最大5%向上させ、ツール効率を9%向上させることが示されています。これにより、環境との相互作用のみから効果的に学習できる、より効率的なマルチモーダル・エージェントを実現します。