ReLope：KL正則化されたLoRAプローブによるマルチモーダルLLMルーティング

arXiv cs.AI / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMに対するプローブベースのルーティングを調査し、視覚入力がある場合、隠れ状態における正しさのシグナルが大幅に分離しにくくなることを見出す。

要旨: ルーティングは、軽量モデルと強力だが高コストな大規模モデルを組み合わせる大規模言語モデル（LLM）システムにおいて、性能とコストのバランスを取る有望な戦略として注目されている。近年の研究では、隠れ状態を用いて小さなモデルの正しさを予測する [0m\emph{プローブ・ルーティング}[0m が、テキストのみのLLMにおいて有効な解決策を提供することが示されている。しかし我々は、これらのプローブをマルチモーダルLLM（MLLM）に適用すると、大幅に性能が劣化することを観察した。経験的分析を通じて、視覚入力の存在が隠れ状態における正しさのシグナルの分離可能性を弱め、標準的なプローブ設計ではそれを抽出しにくくしていることを見出した。この課題に対処するために、MLLMにおけるプローブ・ルーティングを改善するための、補完的な2つのアプローチを提案する。第一に、注意スコアに基づいて直前の層から隠れ状態を集約し、分散した正しさのシグナルを回復する [0m\emph{Attention Probe}[0m を提案する。第二に、軽量なLoRAアダプタを挿入し、KL正則化を適用してルーティングを意識した表現を学習する [0m\emph{KL-Regularized LoRA Probe（ReLope）}[0m を提示する。包括的な実験の結果、我々の手法は一貫してベースラインを上回ることが示され、MLLMにおける効果的なルーティングには隠れ状態の品質を向上させることが重要であることを示唆している。コードは https://github.com/Spinozaaa/ReLope で公開している。