なぜ教師あり微調整は学習できないのか:大規模言語モデルにおける不完全学習の体系的研究

arXiv cs.CL / 2026/4/14

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの教師あり微調整(SFT)における持続的な失敗モードを特定する。すなわち、学習が収束した後でさえ、モデルが教師あり学習インスタンスの一部を正しく再現できない場合があり、これを不完全学習現象(ILP)と呼ぶ。
  • ILPは、複数のLLMファミリ、領域、データセットにまたがって広く見られることが示され、集約された評価指標は、この持続的な「未学習(unlearned)」サブセットを見えにくくする可能性がある。
  • 著者らはILPを、教師ありインスタンスを事後学習で内部化できないこととして形式化し、未学習サンプルを観測可能で反復的な原因に分類する「診断を先に行う」枠組みを提案する。
  • 不完全学習の主要な原因として、5つが特定される:前提となる知識の欠落、事前学習時の知識との衝突、SFTデータ内部の不整合、逐次的な微調整における左側の忘却、まれな、または複雑なパターンに対する最適化の不足。
  • 本研究では、緩和策も因果的介入として検討し、Qwen、LLaMA、OLMo2などのモデルを用いた実験によって、モデルごとの挙動の多様性と、特定の改善が可能であることを示す。

要旨: 教師あり微調整(Supervised Fine-Tuning: SFT)は、大規模言語モデル(LLM)を下流タスクに適応させるための標準的なアプローチである。 しかし、私たちは持続的な失敗モードを観察する。すなわち、収束した後でさえ、モデルはしばしば自らの教師あり学習データの一部を正しく再現できないのである。 この振る舞いを、不完全学習現象(Incomplete Learning Phenomenon: ILP)と呼ぶ。 本論文は、LLMの微調整におけるILPの最初の体系的研究を提示する。 ILPを、教師ありインスタンスを内部化できないことによる事後学習の失敗として形式化し、複数のモデルファミリ、領域、データセットにわたってその発生の広がりを示す。 制御された分析を通じて、不完全学習を引き起こす再発する5つの原因を特定する:(1)事前学習済みモデルにおける前提知識の欠落、(2)SFTの教師信号と事前学習の知識との衝突、(3)SFTデータ内部の不整合、(4)逐次的な微調整における左側の忘却、(5)稀である、または複雑なパターンに対する最適化の不十分さ。 観測可能な学習および推論のシグナルを用いて、未学習のサンプルをこれらの原因に対応付ける「診断を最初に行う」枠組みを導入し、因果的介入としていくつかの標的型の緩和戦略を研究する。 Qwen、LLaMA、OLMo2に関する実験により、不完全学習が広範で不均一(ヘテロジニアス)であること、そして集計指標の改善が、未学習部分の持続を見えにくくする可能性があることを示す。 本結果は、教師あり微調整が何を学習できないのか、そしてなぜ学習できないのか、という点についてのきめ細かな診断の必要性を浮き彫りにする。