概要: LLMはしばしば同程度のベンチマーク精度を共有しますが、タスクのサブセット間における補完的な性能は、オラクルルータ--完全な先見を備えた理論上のセレクタ--が、モデル単体の精度を大きく上回るためにモデル固有の強みをナビゲートできることを示唆しています。現在のルータは脆弱な意味的シグナルに依存していますが、Encoder-Target Decoupling(エンコーダとターゲットの分離)により、内部のプリフィル活性を用いることを提案します。これは、予測シグナルを提供するモデル(エンコーダ)と、推定される性能を持つモデル(ターゲット)を機能的に分離するものです。これにより、それぞれの固有エンコーダとターゲットモデルとの間で最適化された異種の組み合わせが可能になります。数学的なプローブとしてFisher Separability(J)とEffective Dimensionality(d_eff)を用いて、最適な層ごとのシグナルを切り分け、その予測基盤をSharedTrunkNetアーキテクチャに提供します。SharedTrunkNetは、最強の単体モデルとオラクルの間の精度ギャップの最大45.58%を捉えつつ、最高コストのモデルに比べて74.31%のコスト削減を達成します。
LLMルーター:Prefillがすべてである
arXiv cs.CL / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「オラクル」ルーターが、タスクの異なる部分集合におけるそれぞれのモデルの補完的な強みをもとにモデルを選択することで、単一のLLMよりも優れた性能を発揮し得ると主張する。
- 予測的なシグナルを生成するコンポーネントと、その性能が推定されるコンポーネントを分離する、Encoder-Target Decouplingと呼ばれる手法を用い、内部のprefillアクティベーションを利用して、より頑健なルーティング用の信号を提案する。
- この手法では、数学的なプローブとしてFisher Separability(フィッシャー分離性)とEffective Dimensionality(有効次元数)を用い、SharedTrunkNetルーティングアーキテクチャの基盤となる、最適な層ごとのシグナルを特定する。
- SharedTrunkNetは、最高の単独モデルとオラクルルーターの間にある精度ギャップの最大45.58%を回復しつつ、コストを削減できると報告されており、最も高コストのモデルに対して74.31%のコスト削減を達成する。
- 全体として、本研究は、脆い外部のセマンティックな手がかりから、最適化された異種モデルの組み合わせを支えることを意図した、内部アクティベーションに基づくシグナルへとルーター設計の方向性を転換する。