AutoTool: 分離型エントロピー制約による強化学習におけるツール使用能力の自動スケーリング

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、ツール使用の適切な推論経路を自動的に決定するよう、ウォームアップとしての教師ありファインチューニングと強化学習を組み合わせたトレーニングパラダイム AutoTool を提案します。
エントロピーに基づく最適化目的は、モデルの多様性を維持しつつ、エントロピーに基づく長短推論の融合 RL 戦略を通じて長距離推論を拡張可能にすることを示している。
このアプローチは、思考長の過小評価と、単純な問題を過剰に考えることによる非効率という、RL のスケーリング課題の2つに対処する。
3つのベンチマークにおける実験結果は、精度が9.8%向上し、計算オーバーヘッドが約81%削減されることを示し、ツール使用の自動スケーリングが有効であることを示した。
この研究は RL におけるスケーラブルなツール使用能力を前進させ、AI エージェントの効率と性能の向上につながる可能性がある。

概要：ツールの使用はAIエージェントにとって重要な能力を表し、最近の進展は、より良い性能を達成するために、推論プロセスを明示的に拡張するために強化学習（RL）を活用することに焦点を当てている。しかし、現在のRLベースのスケーリング手法におけるツールの使用にはいくつかの重要な課題がある：(a) 直接的なRL訓練は、複雑な問題を解くのに十分な推論の長さをスケールアップするのにしばしば苦労する、(b) 拡張されたモデルはより単純な問題を過剰に推論してしまい、トークンの非効率性を生じさせる。これらの課題に対処するため、まず単純な問題と複雑な問題を区別できるよう支援するウォームアップの教師付きファインチューニングを用い、その後、モデルが適切な推論経路を自動的に決定できるようにするRLを適用する。さらに、自動的な思考長さのスケーリングの問題に取り組むため、エントロピーに基づく最適化目的が、モデルの多様性を効果的に維持しつつ、モデルのスケーリング能力をうまく解き放つことを発見した。これに基づき、エントロピーに基づく長短期推論融合RL戦略を導入する。我々の3つのベンチマークでの実験は、モデルが効率的なツール使用の自動スケーリングを成功裏に達成し、9.8％の精度向上を達成しつつ、計算オーバーヘッドを約81％低減することを示している。

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

AutoTool: 分離型エントロピー制約による強化学習におけるツール使用能力の自動スケーリング

要点

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer