MoRFI：単調スパースオートエンコーダによる特徴識別

arXiv cs.CL / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ポストトレーニングで新しい事実を追加するとLLMの幻覚が増える理由を、クローズドブックQAの制御実験に焦点を当てて検証します。
Llama 3.1 8B、Gemma 2 9B、Mistral 7B v03の複数モデルを、未知の新規知識量や学習エポック数を変えながら7つの単一QAデータセットで微調整し、テスト性能を測定した結果、新規知識を段階的に増やすほど（特に長く学習するほど）幻覚が増えることを確認しています。
事前学習済みのスパースオートエンコーダ（SAE）を用いて、各チェックポイントにおける残差ストリームの活性を解析し、幻覚に因果的に寄与する潜在方向を特定します。
著者らは Monotonic Relationship Feature Identification（MoRFI）を提案し、目標となる性質を持つ制御された微調整データ混合に対して単調に反応するSAE特徴を抽出することで、単一潜在の介入によって記憶された知識を回復できる方向を見つけます。
結果として、未知の事実への曝露は、残差ストリーム上の特定の方向に沿った既存知識の想起能力を損ね得ること、またこの手法が異なるモデル系にわたって再現性よく適用できることが示されます。

概要: 大規模言語モデル（LLM）は、次トークン予測によって事前学習段階で事実知識の大部分を獲得します。その後のポストトレーニング段階では、パラメトリックな知識の外側にある新しい事実が導入されることが多く、それが幻覚（ハルシネーション）の原因となります。新しい知識に対する教師あり微調整（SFT）が問題を悪化させうることは示されているものの、根本的なメカニズムはまだ十分に理解されていません。本研究では、クローズドブックQAに焦点を当てた制御された微調整実験を行い、幻覚に因果的に寄与する潜在的方向性を見出します。具体的には、Llama 3.1 8B、Gemma 2 9B、Mistral 7B v03を、それぞれ異なる7つの単一QAデータセットに対して微調整し、新しい知識の割合と学習エポック数を制御します。テストセットで性能を測定することで、新しい知識を段階的に導入すると幻覚が増加し、その効果は長時間の学習でより顕著になることを検証します。さらに、事前学習済みの疎オートエンコーダ（SAE）を活用して、各モデルのさまざまなチェックポイントにわたる残差ストリームの活性を分析し、因果的に関連する潜在変数を捉えるためのMonotonic Relationship Feature Identification（MoRFI）を提案します。MoRFIは、目的となる性質に対する制御された微調整データ混合に対して単調に応答するSAEの特徴量をフィルタします。私たちの結果は、未知の事実に曝されることで、残差ストリーム中の一連の方向性に沿って格納された知識を取り出すモデルの能力が損なわれることを示しています。私たちのパイプラインは、異なるモデルにわたってそれらを確実に発見し、単一の潜在変数への介入によって知識を回復します。