ツールによる強化学習を用いた視覚推論

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル大規模言語モデルが複雑な視覚推論タスクを解くために視覚ツールを効果的に使えるようになる方法を検討する。
ツール使用に対して直接の教師信号を与えるTool-supervised Reinforcement Learning（ToolsRL）フレームワークを提案し、ツール学習をより効率的にする。
ズーム、回転、反転、点や線を描くといった、単純でネイティブかつ解釈しやすい視覚ツールを対象とし、それらのツール監督データは収集しやすい点を重視する。
2段階の強化学習カリキュラムを設計し、まずはツール固有の報酬でツール呼び出し能力を習得し、その後にツール呼び出しを許しつつ視覚推論の精度を高めることで、異種の最適化目標間の競合を抑える。
実験の結果、ツール教師付きカリキュラムは学習効率を高め、複雑な視覚推論に対して強力なツール使用能力を実現できることが示される。

概要: 本論文では、マルチモーダル大規模言語モデルにおける複雑な視覚推論タスクを解くために、ツール活用を効果的に習得する方法という問題を調査する。これを達成するために、ツールの利用をより効果的に学習できるように、直接的なツール監督（tool supervision）を備えた新しいツール監督付き強化学習（ToolsRL）フレームワークを提案する。我々は、拡大（zoom-in）、回転（rotate）、反転（flip）、および点／線の描画（draw point/line）を含む一連の単純で、ネイティブで、かつ解釈可能な視覚ツールに注目する。これらのツール監督は収集が容易である。強化学習カリキュラムを開発し、最初の段階では、十分に動機づけられたツール固有の報酬の集合のみによって最適化を行い、第二段階では、ツール呼び出しを可能にしつつ、精度を目標とした報酬で学習する。これにより、視覚推論タスクを完了するためにツールを使用する前に、ツール呼び出し能力が習得され、これらの異種なタスク間における潜在的な最適化競合を回避できる。我々の実験では、ツール監督付きカリキュラム学習が効率的であり、ToolsRLが複雑な視覚推論タスクに対して強力なツール利用能力を達成できることを示した。