RouteLMT：ハイブリッドLLM翻訳展開のための学習済みサンプルルーティング

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、機械翻訳向けLLMの導入コストが高い問題を、少数のリクエストだけを大規模モデルへルーティングし、多くは小規模モデルで処理するハイブリッド方式で解決しようとします。
ルーティングを予算配分問題として定式化し、主要な意思決定の手掛かりを「限界利得（marginal gain）」、すなわち大規模モデルが小規模モデルに対してもたらす改善量として定義します。
RouteLMTは、外部予測器や仮説（ヒポテシス）デコードに依存せず、小規模トランスレータのプロンプトトークン表現をプローブして期待利得を予測する効率的なインモデル・ルータとして提案されます。
実験の結果、RouteLMTはヒューリスティックや品質/難易度推定のベースラインより優れ、品質–予算のパレートフロンティアが改善したことを示します。
さらに、回帰（レグレッション）リスクを分析し、品質の大幅な低下を抑えるガード付きバリアントを提示します。

要旨: 大規模言語モデル（LLM）は機械翻訳（MT）において目覚ましい性能を達成してきましたが、それらを大規模に展開することは依然として法外なコストがかかります。広く採用されている解決策はハイブリッド・システムのパラダイムであり、小さいモデルで大半の要求に対応し、要求の一部だけを大きいモデルに選択的にルーティングすることで、コストと品質のバランスを取ります。しかし、既存のルーティング戦略はしばしばヒューリスティック、外部予測器、または絶対的な品質推定に依存しており、大きいモデルが小さいモデルに対して実際に価値ある改善をもたらすかどうかを捉えられていません。本論文では、ルーティングを予算配分問題として定式化し、予算付きの意思決定における最適な信号として、限界利得、すなわち小さいモデルに対する大きいモデルの改善を特定します。これに基づき、
\textbf{RouteLMT}（LLMベースMTのためのルーティング）を提案します。これは、外部モデルや仮説のデコーディングを必要とせずに、小さいトランスレータのプロンプトトークン表現をプロービングすることで、この期待される利得を予測する、効率的なインモデル・ルータです。広範な実験により、提案するRouteLMTはヒューリスティックや品質/難易度推定のベースラインを上回り、より優れた品質—予算のパレートフロンティアを達成することを示します。さらに、回帰（レグレッション）のリスクを分析し、単純なガード付きバリアントによって深刻な品質低下を緩和できることを示します。