効果的なAIエージェントを構築するうえでの重要な課題の1つは、外部ツールを使うか、内部の知識に頼るかをエージェントに選ばせることです。しかし、大規模言語モデルはしばしば、ツールをやみくもに呼び出すように学習されており、その結果、レイテンシのボトルネック、不要なAPIコスト、そして環境ノイズによって推論が劣化するという問題が生じます。
この課題を克服するため、Alibabaの研究者は 階層的デカップルド・ポリシー最適化(HDPO)を導入しました。HDPOは、実行効率とタスク精度の両立を調整できるようにエージェントを訓練する強化学習の枠組みです。
この枠組みで訓練したマルチモーダルモデル「Metis」は、冗長なツール呼び出しを98%からわずか2%にまで削減し、主要な業界ベンチマークにおいて新たな最先端の推論精度を確立しました。この枠組みは、「ツールを多用したがる(トリガーハッピー)」状態ではなく、ツール使用を控えるべきタイミングをわきまえたAIエージェントを作るのに役立ち、応答性が高くコスト効率の良いエージェント型システムの開発を可能にします。
メタ認知の欠落
現在のエージェント型モデルは、研究者らが「深刻なメタ認知の欠落」と呼ぶ問題に直面しています。モデルは、自身の内部パラメトリックな知識を使うべきか、外部ユーティリティを照会すべきかを判断するのが難しいのです。その結果、ユーザーのプロンプトにすでにタスクを解決するのに必要な情報がすべて含まれている場合でも、ウェブ検索やコード実行のようなツールやAPIを、やみくもに呼び出してしまいます。
このようなトリガーハッピーなツール呼び出し行動は、実世界のアプリケーションにとって深刻な運用上の障害になります。モデルはタスク完了にほぼ全面的に焦点を当てて訓練されているため、レイテンシに無関心なのです。そのため、エージェントは頻繁に法外なツール呼び出し回数に到達します。不要な外部API呼び出しのたびにシリアル処理のボトルネックが追加され、技術的に能力のあるAIでさえ、鈍いシステムに変わってしまいます。これはユーザーの苛立ちを招き、ツールの予算を燃やし尽くします。
同時に、過剰なツール使用に計算資源を浪費しても、より良い推論につながるわけではありません。冗長なツールとのやり取りは、モデルの文脈にノイズを注入します。このノイズはモデルの注意を逸らし、筋の通った推論の連鎖をそらせるだけでなく、最終出力を能動的に劣化させます。
盲目的なツール呼び出しに伴うレイテンシとコストの問題に対処するため、これまでの強化学習手法では、タスク精度と実行効率を1つの報酬信号に組み合わせることで、過剰なツール使用を罰しようとしました。しかし、この絡み合った設計は、解けない最適化ジレンマを生み出します。効率ペナルティが強すぎると、モデルは過度に慎重になり、不可欠なツール使用を抑制してしまい、難しいタスクでの正確さを犠牲にします。逆に、ペナルティが弱すぎると、最適化の信号の価値が失われ、単純なタスクにおけるツールの使い過ぎを防げません。
さらに、この共有報酬は意味的な曖昧さも生みます。たとえば、ツール呼び出しがゼロの不正確な軌跡でも、ツールの使い過ぎを伴う正確な軌跡と同じ報酬が得られうるのです。精度と効率のための学習信号が絡み合ってしまうため、モデルは、主要な推論能力を損なわずにツール使用を制御することを学べません。
階層的デカップルド・ポリシー最適化
絡み合った報酬による最適化ジレンマを解くために、研究者らはHDPOを導入しました。HDPOでは、精度と効率を2つの独立した最適化チャネルに分離します。精度チャネルは、モデルのすべてのロールアウトにわたってタスクの正しさを最大化することに焦点を当てます。効率チャネルは、実行の経済性を最適化します。
HDPOは、これら2つのチャネルの学習信号を独立に計算し、損失計算の最終段階でのみそれらを結合します。効率信号は精度チャネルに条件付けられます。つまり、不正確な応答は「速い」「ツールを少なく使った」という理由だけで報酬を与えられることはありません。このデカップリングにより、精度と効率の勾配が相殺し合ってしまう状況を回避でき、両方の目標に対するAIへの明確な学習信号が提供されます。
このデカップルド設計が生み出す最も強力な創発的性質は、暗黙の認知カリキュラムを形成することです。学習の初期段階では、モデルがまだタスクに苦戦しているため、最適化は精度目標によって支配されます。これにより、正しい推論と知識の学習を優先するようモデルが強制されます。モデルの推論能力が成熟し、正しい答えに一貫して到達できるようになると、効率信号が滑らかに強まります。この仕組みによって、モデルはまずタスク解決を確実にできるようになり、その後で冗長でコストのかかるAPI呼び出しを避けることで自己依存を洗練させていきます。
HDPOを補完するために、研究者らは既存のツール拡張データセットに見られる深刻な欠陥に取り組む、厳密な多段階データキュレーションの手順を開発しました。データキュレーションのパイプラインは、教師あり微調整(SFT)と強化学習(RL)の段階をカバーしています。
SFTフェーズでは、公開されているツール拡張マルチモーダルの軌跡データを調達し、実行失敗やフィードバックの不整合を含む低品質な例を除去するためにフィルタリングしました。さらに、基盤モデルがツールなしで直接解ける学習サンプルは、厳しく除外しました。最後に、Googleの Gemini 3.1 Pro を自動判定者として用い、戦略的なツール使用を示した例だけをSFTコーパスとして残しました。
RLフェーズでは、安定した最適化信号の確保に焦点が当てられました。破損した視覚情報や意味的な曖昧さを含むプロンプトを除外しました。HDPOアルゴリズムは、正しい応答と誤った応答の比較に依存しています。タスクがあまりにも簡単で常に正解できる場合や、あまりにも難しくて常に失敗する場合には、学習できる有意な数学的なばらつきが存在しません。そこでチームは、成功と失敗が非自明に混ざることが見られるプロンプトだけを厳密に保持し、実行可能な勾配信号が得られることを保証しました。
Metisエージェント:HDPO が動く
HDPOが機能することを確かめるため、研究者らはこの枠組みを用いて、コーディングと検索ツールを備えたマルチモーダル推論エージェントであるMetisを開発しました。Metisは、視覚言語モデルであるQwen3-VL-8B-Instructの上に構築されています。研究者らはこれを2つの異なる段階で訓練しました。まず、キュレーションしたデータを用いてSFTを適用し、コールドスタートの初期化を行いました。次に、HDPOの枠組みを用いてRLを適用し、Pythonコード実行、テキスト検索、画像検索のようなツールを呼び出せる、複数ターンの相互作用へとモデルを触れさせました。
研究者らはMetisを、LLaVA-OneVisionのような標準的なオープンソースの視覚モデル、テキストのみの推論器、さらにDeepEyes V2や300億パラメータのSkywork-R1V4を含む最先端のエージェント型モデルと対比しました。評価は2つの主要領域にまたがりました。HRBenchやV*Benchのような視覚認識およびドキュメント理解のデータセット、そしてWeMathやMathVistaのような厳密な数学的・論理的推論タスクです。
すべてのタスクにおいて、Metisは最先端、または非常に競争力のある性能を達成し、既存のエージェント型モデルを上回りました。そこには、はるかに大規模な300億パラメータのSkywork-R1V4も含まれます。視覚認識タスクと推論タスクの両方で、Metisはこれらを上回りました。
実験で示された逸話的なふるまいも同様に重要です。たとえば、美術館の看板の画像を提示し、その中央の文字が何かを尋ねられたとき、標準的なエージェント型モデルは、読むためだけに画像を切り抜くPythonスクリプトをやみくもに書くことで時間を無駄にします。しかしMetisは、テキストが元の画像の中ではっきり判読できることを認識します。Metisはツールをまったく使わず、1回の推論パスだけで済ませます。
別の実験では、モデルに複雑なグラフを与え、非常に小さなサブプロット内の特定のデータ点における2番目に高い折れ線を特定するよう求めました。Metisは、細かな視覚的解析がそのネイティブの解像度では能力を超えており、重なり合う線を正確に区別できないことを認識しました。全体の画像から推測する代わりに、Pythonを呼び出して、その特定のサブプロット領域だけを切り抜き、拡大して確認し、その結果、正しく線を特定できました。これは、コードを、視覚的証拠が本当に曖昧である場合に限って投入される精密な計測器として扱うものであり、デフォルトのフォールバックとして扱うのではありません。
研究者らは、Metisを、HDPOのコードとともに、寛容なApache 2.0ライセンスのもとで公開しました。
「私たちの結果は、戦略的なツール利用と強い推論性能はトレードオフではないことを示しています。むしろ、ノイズの多い冗長なツール呼び出しを排除することが、直接的により高い精度につながるのです」と研究者らは結論づけています。「より広い観点から言えば、私たちの研究は、ツールを併用した学習におけるパラダイムシフトを示唆しています。すなわち、単にモデルにツールの実行方法を教えるのではなく、それらを“使わない”ことをいつ選ぶべきかというメタ認知的な叡智を育む、という方向です。」



