広告

NeuralUCB による報酬ベースのオンライン LLM ルーティング

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、NeuralUCB を用いて大規模言語モデル間のコストを考慮したオンライン・ルーティングを行う手法を提案し、ルーティングを報酬に基づく意思決定問題として定式化しつつ、フィードバックは限定的であるとする。
  • 既存手法(教師ありルーティング vs. 部分フィードバック・ルーティング)を対比し、NeuralUCB がシミュレーション上のオンライン環境において適応性と効率の両立をどう実現しうるかを動機づける。
  • RouterBench における実験では、NeuralUCB のルーティング方策がランダムおよび最小コスト基準よりも高いユーティリティ報酬を達成する。
  • 最大品質の参照手法と比べて、本手法は推論コストを大幅に削減しつつ報酬は競争力を維持しており、強いコスト–品質のトレードオフが示される。
  • さらに本研究では、行動の識別性や、ルーティング設定における探索の有効性といった未解決の課題も指摘している。

要旨: 本研究では、コストを意識した大規模言語モデル(LLM)ルーティングにおける NeuralUCB の利用を調査する。既存のルーティング手法は、大まかに教師ありルーティング手法と部分的フィードバック手法に分類でき、それぞれ効率性と適応性において異なるトレードオフを持つ。本研究では NeuralUCB に基づくルーティング方策を実装し、シミュレートされたオンライン環境において RouterBench で評価する。実験結果は、提案手法が効用報酬においてランダムおよび最小コストのベースラインを一貫して上回ることを示す。最大品質の参照手法と比較すると、本手法は報酬を競争力のある水準に維持しつつ、推論コストを大幅に低減できる。これらの知見は、NeuralUCB がコストを意識した LLM ルーティングの有望なアプローチであることを示唆すると同時に、行動の識別と探索に残された課題も浮き彫りにする。

広告