要旨:LLM推論ゲートウェイのセマンティックルータは、重要なリクエスト経路でツールを選択します。追加の遅延が1ミリ秒でも、数百万のリクエストにわたって影響が累積します。私たちは Outcome-Aware Tool Selection(OATS)を提案します。これは、過去にツールが成功したクエリの重心に向かってツール埋め込みを補間するオフラインプロセスであり、提供時にはパラメータ、遅延、GPUコストを追加しません。MetaTool(199個のツール、4,287個のクエリ)では、NDCG@5を0.869から0.940へ改善します; ToolBench(2,413個のAPI)では0.834から0.848へ改善します。さらに、学習済みの拡張として2,625パラメータのMLPリランキングと197Kパラメータのコントラスト学習アダプターを評価します。アウトカムデータがツールセットに対して希薄な場合、MLPリランキングはベースラインを下回るか同等となります;コントラスト学習アダプターはMetaToolで同等の利得を提供します(NDCG@5: 0.931)。すべての手法は、同じホールドアウトの30%テスト分割で評価されます。実務的な結論は、ゼロコストの改良から開始し、データ密度がそれを正当化する場合にのみ学習コンポーネントを追加することです。すべての仕組みは、一桁ミリ秒のCPU予算内で実行されます。
セマンティック・ルーター向け結果志向のツール選択: LLM推論なしのレイテンシ制約付き学習
arXiv cs.LG / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- OATS (Outcome-Aware Tool Selection) は、LLM推論ゲートウェイのためのセマンティック・ルーターにおけるツール選択を最適化する手法で、レイテンシを低減しつつ精度を維持または向上させることを目的とする。
- このアプローチはオフラインで動作し、パラメータや提供時のレイテンシを追加しない。過去に成功したクエリの中心点へツール埋め込みを内挿することで実現する。
- 実験結果は、MetaToolでNDCG@5が0.869から0.940へ、ToolBenchで0.834から0.848へ改善したことを示し、いずれもホールドアウトされた30%のテスト分割で評価された。
- 学習された拡張として、2,625パラメータのMLP再ランク付け器と197Kパラメータの対照学習アダプターが含まれる。データが希薄な場合、MLPはベースラインを悪化させることも、同等になることもある一方、対照学習アダプターはMetaToolで同等の改善をもたらす。
- 実務的な要点は、ゼロコストのリファインメントから始め、データ密度がそれに値するときのみ学習コンポーネントを追加し、すべてのメカニズムをCPUの単一桁ミリ秒予算内で動作させること。
