ConsRoute:クラウド・エッジ・デバイス向け大規模言語モデルのための整合性認識型アダプティブ・クエリ・ルーティング

arXiv cs.AI / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、クラウド・エッジ・デバイス間でのLLM推論における整合性認識型アダプティブ・クエリ・ルーティングフレームワークであるConsRouteを提案し、応答品質を大きく損なうことなく、レイテンシと推論コストを削減することを目的とする。
  • ConsRouteは、リランカー(再ランキング器)を用いて、異なるモデル階層からの応答間のきめ細かな意味的整合性を測定し、粗い出力品質の差の推定値を超えるソフトな教師信号によってルーティング判断を改善する。
  • エッジデバイス側のオーバーヘッドを低く保つために、プリフィリング段階で生成されたLLMの隠れ状態を、コンパクトなクエリ表現として再利用し、追加のエンコーダや追加の推論パスを回避する。
  • この表現をクラスタリングし、ベイズ最適化を用いて、異種のクエリ分布にわたり品質・レイテンシ・コストのバランスを取るクラスタ固有のルーティング閾値を学習する。
  • 実験では、クラウドに近い品質(≥95%)を維持しつつ、エンドツーエンドのレイテンシと推論コストを約40%削減し、従来のルーティング手法のベースラインを上回る結果が報告されている。