マスターキー仮説:線形部分空間整列によるモデル間能力移転の解錠

arXiv cs.LG / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はマスターキー仮説を提案し、特定の事後学習された能力が低次元の潜在部分空間内の方向に対応しており、再学習なしで線形整列によりモデル規模をまたいで転送可能であると主張する。
  • UNLOCKを導入する。これは学習不要・ラベル不要の手法であり、能力が存在するソース変種と能力が欠如するソース変種の活性化を対比することで能力の方向を抽出し、その後推論時にターゲットモデルへ整列させて適用する。
  • 推論タスク(Chain-of-Thoughtや数学的推論を含む)での実験では、異なるモデルサイズ間で転送する場合でも、大きなモデル間改善が示される。
  • 報告された結果として、Qwen1.5-14BからQwen1.5-7BへCoT推論を転送した際にMATH精度が12.1%向上し、さらにQwen3モデルのバリアント間で数学的推論を転送した際にはAGIEval Mathが61.1%から71.3%へ増加した。
  • 著者らは、移転の成功は事前学習から存在している能力に依存すると論じており、本介入は成功した推論の軌道へ向けて出力分布を鋭くすることで機能するのだと示唆している。

Abstract

本論文では、再訓練を行わずに、事後学習された能力がモデル間で転移可能かどうか、特に異なるモデル規模間での転移に焦点を当てて検証します。私たちは、Master Key Hypothesis(マスターキー仮説)を提案します。この仮説は、モデルの能力が、特定の振る舞いを誘発する低次元の潜在部分空間内の方向に対応し、線形アラインメントによってモデル間で転移可能であるというものです。この仮説に基づき、UNLOCK を導入します。UNLOCK は、訓練不要かつラベル不要の枠組みであり、能力が存在する Source バリアントと能力が存在しない Source バリアントの活性を対比することで能力方向を抽出し、それを低ランクの線形変換によって Target モデルにアラインメントし、推論時に適用することで目的の振る舞いを引き出します。Chain-of-Thought(CoT)や数学的推論を含む推論挙動に関する実験では、学習なしでモデル規模をまたいで大幅な改善が得られることが示されます。たとえば、Qwen1.5-14B から Qwen1.5-7B へ CoT 推論を転移すると、MATH における精度が 12.1% 改善します。また、Qwen3-4B-Base から Qwen3-14B-Base へ数学的推論方向を転移すると、AGIEval Math の精度が 61.1% から 71.3% に向上し、14B の事後訓練モデルが達成した 67.8% を上回ります。私たちの分析では、転移の成功は事前学習中に獲得された能力に依存し、さらに介入によって出力分布を成功した推論の軌跡へ向けて鋭くすることで、潜在能力が増幅されることが示されています。