要旨: 小型ビジョン・言語モデル(SVLMs)は効率的なタスク制御器ですが、多くの場合、視覚の脆さやツールのオーケストレーション(連携)の不備に悩まされます。これらの欠点を軽減するために、通常は高価な教師ありの軌跡チューニングが必要です。本研究では、自己教師あり知覚を、カスケードされたツール・ロールアウト整合によって可能にする枠組み、Self-supervised Perception Enabled by Cascaded Tool Rollout Alignment(SPECTRA)を提案します。SPECTRAは、SVLMsに対するコールドスタート強化学習を通じて、教師なしでエージェント的能力をブートストラップする枠組みです。SPECTRAは、ソフトな構造化マルチターン・ロールアウトを強制します。これは位相的制約であり、エージェントに対して、合成の前にツールから得られた証拠を明示的に順序立てて提示するよう誘導し、推論を視覚観測に効果的に基礎づけます。さらに、タスクの正確性、ロールアウト構造、ツール有用性を同時に最大化する多目的報酬信号を用いることで、人間の嗜好ラベルなしにエージェントが頑健な行動を自ら発見できるようにします。加えて、Ground Truthがない状況でツールの有効性を定量化する新しい指標であるTool Instrumental Utility(TIU)を導入します。複合ベンチマークおよび分布外(MMMU-Pro)ベンチマークにわたる大規模な評価により、SPECTRAはエージェントの軌跡を強化し、タスク精度を最大5%向上させ、ツール効率を9%向上させることが示されています。これにより、環境との相互作用のみから効果的に学習できる、より効率的なマルチモーダル・エージェントを実現します。
盲目で目覚める:根拠のある視覚知覚のための、監督なしのエージェント軌道に対するコールドスタート最適化
arXiv cs.AI / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、小型ビジョン言語モデルのエージェント的振る舞いにおける頑健性とツールオーケストレーションを改善するための、教師なし(監督なし)学習フレームワークSPECTRAを提案しています。
- SPECTRAはコールドスタート強化学習を用い、「Soft Structured Multi-turn Rollouts」により、エージェントがツールから得た証拠を明示的に順序立ててから統合するよう制約し、推論を視覚観測に根付かせます。
- 人間の嗜好ラベルなしで学習できるよう、タスク正解率・ロールアウト構造・ツール有用性を同時に最適化するマルチ目的報酬を採用しています。
- 確かな正解がない状況でもツールの有効性を定量化するために、新しい指標Tool Instrumental Utility(TIU)を提案しています。
- 複合ベンチマークおよび分布外ベンチマーク(MMMU-Pro含む)での実験により、従来手法に対してタスク精度は最大5%、ツール効率は最大9%向上したことが示されています。




