RankGuide:効率的推論のためのテンソル順位(Tensor-Rank)ガイド付きルーティングとステアリング

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 大規模推論モデルはチェーン・オブ・ソート(CoT)による多段推論で性能を高める一方、レイテンシと計算コストが大きいことから、小規模モデルを併用する協調アプローチが注目されている。
  • 本論文は、小規模推論モデルの失敗を生成テキストと隠れ状態の両空間で分析し、過信・不確実性・重い再検証の3種類の失敗モードに整理する。
  • RankGuideは、連続する隠れ状態から得たテンソル順位(tensor-rank)シグナルを用いて、小規模モデルが失敗しそうな場合にのみ大規模モデルを呼び出すルーティング方式を提案する。
  • さらにRankGuideは、テンソル順位でフィルタしたステアリングベクトル抽出により、小規模モデルの推論の軌道を調整して生成品質を高める。
  • 複数の推論ベンチマークでの実験により、RankGuideは大規模モデル単独に比べて最大1.75倍のレイテンシ削減を達成しつつ、精度は既存の協調手法と競争力を維持することが示されている。

要旨: 大規模推論モデル(LRM)は、明示的な多段階の思考過程(CoT)推論を生成することで問題解決能力を高めますが、推論のレイテンシと計算オーバーヘッドが大きくなります。この問題を緩和するために、近年では、モデル同士が協調するパラダイムが検討されており、より小型の推論モデル(SRM)が中間の推論ステップを生成することで、精度とレイテンシのより良いトレードオフを実現します。近年の進展にもかかわらず、協調システムにおいてSRMの失敗を効果的かつ効率的に検出し、対処することは依然として重要な課題です。この課題に取り組むために、生成テキストと隠れ状態空間の両方におけるSRM推論を分析し、3種類の失敗モード―― extit{過信(overconfidence)}、 extit{不確実性(uncertainty)}、 extit{重い再検証(heavy revalidation)}――を特定します。これらの知見に基づき、 extbf{RankGuide} を提案します。RankGuide は、テンソル階数(tensor-rank)に導かれたルーティングとステアリングによって、SRM--LRM の協調の効率と有効性を向上させる枠組みです。具体的には、RankGuide は連続する隠れ状態から導出したテンソル階数の信号を組み込んだルーティング信号を活用し、SRMが失敗しそうなときを検出して選択的にLRMを呼び出します。さらに、推論の軌跡を調整するためのテンソル階数でフィルタされたベクトル抽出手法を導入し、それによってSRMの生成品質を向上させます。テンソル階数の信号によってルーティングとステアリングの両方を改善することで、RankGuide はSRM--LRM協調システムが、より少ないステップで、より効率的な推論を実現し、かつ精度を向上させることを可能にします。複数の推論ベンチマークにおける実験により、RankGuide がLRMと比べて最大 1.75 imes レイテンシを削減し、かつ先行手法に対して競争力のある精度を維持することが示されています。