概要:ツールの使用はAIエージェントにとって重要な能力を表し、最近の進展は、より良い性能を達成するために、推論プロセスを明示的に拡張するために強化学習(RL)を活用することに焦点を当てている。しかし、現在のRLベースのスケーリング手法におけるツールの使用にはいくつかの重要な課題がある:(a) 直接的なRL訓練は、複雑な問題を解くのに十分な推論の長さをスケールアップするのにしばしば苦労する、(b) 拡張されたモデルはより単純な問題を過剰に推論してしまい、トークンの非効率性を生じさせる。これらの課題に対処するため、まず単純な問題と複雑な問題を区別できるよう支援するウォームアップの教師付きファインチューニングを用い、その後、モデルが適切な推論経路を自動的に決定できるようにするRLを適用する。さらに、自動的な思考長さのスケーリングの問題に取り組むため、エントロピーに基づく最適化目的が、モデルの多様性を効果的に維持しつつ、モデルのスケーリング能力をうまく解き放つことを発見した。これに基づき、エントロピーに基づく長短期推論融合RL戦略を導入する。我々の3つのベンチマークでの実験は、モデルが効率的なツール使用の自動スケーリングを成功裏に達成し、9.8%の精度向上を達成しつつ、計算オーバーヘッドを約81%低減することを示している。
AutoTool: 分離型エントロピー制約による強化学習におけるツール使用能力の自動スケーリング
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ツール使用の適切な推論経路を自動的に決定するよう、ウォームアップとしての教師ありファインチューニングと強化学習を組み合わせたトレーニングパラダイム AutoTool を提案します。
- エントロピーに基づく最適化目的は、モデルの多様性を維持しつつ、エントロピーに基づく長短推論の融合 RL 戦略を通じて長距離推論を拡張可能にすることを示している。
- このアプローチは、思考長の過小評価と、単純な問題を過剰に考えることによる非効率という、RL のスケーリング課題の2つに対処する。
- 3つのベンチマークにおける実験結果は、精度が9.8%向上し、計算オーバーヘッドが約81%削減されることを示し、ツール使用の自動スケーリングが有効であることを示した。
- この研究は RL におけるスケーラブルなツール使用能力を前進させ、AI エージェントの効率と性能の向上につながる可能性がある。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る
Qiita
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to