コンピュータ利用エージェントのための適応型視覚-言語モデルルーティング

arXiv cs.CL / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • AVRは、CUAオーケストレーターと視覚-言語モデル(VLMs)のプールの間に、各ツール呼び出しを推定されたタスク難易度と迅速な信頼度検証に基づいて最もコスト効率の高いモデルへルーティングする、軽量なセマンティック・ルーティング層を導入します。
  • 本アプローチはコストと精度のトレードオフを形式化し、モデル選択の閾値ベースのポリシーを導出し、メモリを活用した文脈により、小規模モデルと大規模モデル間のギャップを縮小します。
  • ScreenSpot-Pro groundingデータとOpenClawベンチマークでの評価は、全大型モデルのベースラインと比較して推論コストを最大で78%削減しつつ、ベースラインに対して2ポイント未満の差に留まります。また、Visual Confused Deputyガードレールにより高リスクなアクションが最も強力なモデルへエスカレートされ、安全性を確保します。
  • 著者は再現性を可能にするコード、データ、ベンチマーク(GitHubリンク)を提供し、VLMベースのコンピュータ利用エージェントにおける効率と安全性の統一フレームワークを提示します。

要約: コンピュータ使用エージェント(CUAs)は、自然言語の指示をクリック、キーストローク、スクロールといったグラフィカルユーザーインターフェイス(GUI)動作へ翻訳します。これは、スクリーンショットを解釈し、根拠づけられたツール呼び出しを予測する Vision-Language Model(VLM)に依存します。しかし、グラウンディングの精度はVLM間で著しく異なり、現在のCUAシステムは難易度に関係なくほとんどのアクションを1つの固定モデルへ割り当てることが一般的です。我々は\textbf{適応型VLMルーティング} (AVR) を提案します。CUAオーケストレーターとVLMのプールの間に、軽量なセマンティックルーティング層を挿入するフレームワークです。各ツール呼び出しについて、AVRはマルチモーダル埋め込みからアクションの難易度を推定し、信頼度を測定するため小さなVLMを検証し、予測された精度が目標の信頼性閾値を満たす最もコストの低いモデルへアクションをルーティングします。\textit{温かい} UI操作の履歴を持つエージェントには、取得された文脈が小規模モデルと大規模モデル間の能力差をさらに狭め、エスカレーションなしで多くのアクションを処理できるようにします。ルーティングをコスト--精度のトレードオフとして形式化し、モデル選択の閾値ベースのポリシーを導出し、ScreenSpot-Pro groundingデータと OpenClaw エージェントルーティングベンチマークを用いて AVR を評価します。これらの設定をまたいで、AVR は推論コストを最大で 78% 削減しつつ、全て大規模モデルベースラインとの差を2パーセントポイント以内にとどめます。Visual Confused Deputy ガードレールと組み合わせると、AVR は高リスクなアクションを直接最も強力な入手可能モデルへエスカレートさせ、単一のルーティングフレームワーク内で効率と安全性を統合します。材料として、モデル、ベンチマーク、およびコードも提供されています: https://github.com/vllm-project/semantic-router。