コンピュータ利用エージェントのための適応型視覚-言語モデルルーティング

arXiv cs.CL / 2026/3/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

AVRは、CUAオーケストレーターと視覚-言語モデル（VLMs）のプールの間に、各ツール呼び出しを推定されたタスク難易度と迅速な信頼度検証に基づいて最もコスト効率の高いモデルへルーティングする、軽量なセマンティック・ルーティング層を導入します。
本アプローチはコストと精度のトレードオフを形式化し、モデル選択の閾値ベースのポリシーを導出し、メモリを活用した文脈により、小規模モデルと大規模モデル間のギャップを縮小します。
ScreenSpot-Pro groundingデータとOpenClawベンチマークでの評価は、全大型モデルのベースラインと比較して推論コストを最大で78%削減しつつ、ベースラインに対して2ポイント未満の差に留まります。また、Visual Confused Deputyガードレールにより高リスクなアクションが最も強力なモデルへエスカレートされ、安全性を確保します。
著者は再現性を可能にするコード、データ、ベンチマーク（GitHubリンク）を提供し、VLMベースのコンピュータ利用エージェントにおける効率と安全性の統一フレームワークを提示します。

要約: コンピュータ使用エージェント（CUAs）は、自然言語の指示をクリック、キーストローク、スクロールといったグラフィカルユーザーインターフェイス（GUI）動作へ翻訳します。これは、スクリーンショットを解釈し、根拠づけられたツール呼び出しを予測する Vision-Language Model（VLM）に依存します。しかし、グラウンディングの精度はVLM間で著しく異なり、現在のCUAシステムは難易度に関係なくほとんどのアクションを1つの固定モデルへ割り当てることが一般的です。我々は\textbf{適応型VLMルーティング} (AVR) を提案します。CUAオーケストレーターとVLMのプールの間に、軽量なセマンティックルーティング層を挿入するフレームワークです。各ツール呼び出しについて、AVRはマルチモーダル埋め込みからアクションの難易度を推定し、信頼度を測定するため小さなVLMを検証し、予測された精度が目標の信頼性閾値を満たす最もコストの低いモデルへアクションをルーティングします。\textit{温かい} UI操作の履歴を持つエージェントには、取得された文脈が小規模モデルと大規模モデル間の能力差をさらに狭め、エスカレーションなしで多くのアクションを処理できるようにします。ルーティングをコスト--精度のトレードオフとして形式化し、モデル選択の閾値ベースのポリシーを導出し、ScreenSpot-Pro groundingデータと OpenClaw エージェントルーティングベンチマークを用いて AVR を評価します。これらの設定をまたいで、AVR は推論コストを最大で 78% 削減しつつ、全て大規模モデルベースラインとの差を2パーセントポイント以内にとどめます。Visual Confused Deputy ガードレールと組み合わせると、AVR は高リスクなアクションを直接最も強力な入手可能モデルへエスカレートさせ、単一のルーティングフレームワーク内で効率と安全性を統合します。材料として、モデル、ベンチマーク、およびコードも提供されています: https://github.com/vllm-project/semantic-router。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/16Dailyインサイトを見る →

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

Innovatopia

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

ITmedia AI+

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

コンピュータ利用エージェントのための適応型視覚-言語モデルルーティング

要点

💡 この記事が使われたインサイト

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携 AI時代の「創作エコシステム」実現へ

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ