LLMファインチューニングにおけるノイズの影響を分析する

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ファインチューニングデータに含まれる現実世界でよく見られるノイズの種類――ラベルノイズ、文法ノイズ、タイポグラフィ(タイプミス)ノイズ――が、最終的なタスク精度だけでなくLLMのふるまいに与える影響を調べる。
  • 3つの事前学習済みモデル系列(GPT-2、Qwen2、Llama-2)と3つのNLPタスクに対して制御された摂動を加えることで、ラベルノイズが最も一貫した性能低下を引き起こすことを見出す。
  • 一方で、文法ノイズやタイポグラフィノイズは、ある条件下では軽い正則化として働き、結果を改善し得ることがある。
  • 著者らは、層ごとの表現の変化や注意(アテンション)パターンを通じて内部の学習ダイナミクスを分析し、ノイズの影響は主にタスク固有の層に局所化される一方で、注意構造は比較的安定していることを明らかにする。