ルート誘導密度と安定性（RIDE）：ルーティング型メタプロンプトがLLMの内部状態に与える影響の制御された介入とメカニズム分析

arXiv cs.AI / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ルーティング環境において「疎性—確実性仮説」を検証するために、ルーティング型メタプロンプトを代理的なルーティング信号として用い、凍結した指示調整済みLLMの前段に配置することで実験を行う。

Abstract

ルーティングは、Mixture-of-Expertsのゲーティングから複数モデル／ツールの選択まで、大規模言語モデルをスケールさせるために広く用いられている。一般的な考え方として、タスク「エキスパート」にルーティングすると、より疎な内部計算が活性化され、その結果として、より確実で安定した出力が得られる（スパース性―確実性仮説）とされる。我々は、この考えを、凍結した命令チューニング済みLLMの前にルーティング型のメタプロンプトを、ルーティング信号のテキストによる代理として注入することで検証する。内部密度を（C1）活性化のスパース性、（C2）ドメイン・キーワードへの注意、（C3）予測エントロピーと意味のばらつきによる出力の安定性によって定量化する。3つの命令チューニング済みモデル（Qwen3-8B、Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2）を用いたRouterEvalサブセットにおいて、メタプロンプトは、一貫してスパース性を増やすのではなく、初期／中間層の表現をむしろ高密度化する。自然言語で書かれたエキスパート指示のほうが、構造化タグよりも強いことが多い。注意の応答は不均質であり、Qwen／Llamaはキーワード注意を減少させる一方、Mistralはそれを強化する。最後に、高密度化―安定性の結びつきは弱く、Qwenでのみ現れ、LlamaとMistralでは相関がほぼゼロである。我々は、ルーティング設計と不確実性推定を較正するための診断プローブとしてRIDEを提示する。