崩壊まであと1トークン:命令チューニングされた有用性の脆さ

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、些細な語彙上の制約(例:特定の1つの句読点文字や一般的な単語の禁止)下で、命令チューニング済みLLMの「有用性」を検証し、その結果、複数のオープンウェイトのモデル系列とクローズドウェイトのモデル(GPT-4o-mini)において、応答の「崩壊」が起こり得て、包括性が14〜48%低下することを見出した。
  • ペアワイズ評価では、制約なしのベースラインが1,920件の比較の77〜100%で好まれるとされ、GPT-4o-miniは特に大きな包括性の損失(31%)を示し、ほぼ完全なベースライン勝利(99%)が観測されている。
  • 機械論的分析では、この崩壊を、制約付き書き換え後に計画が失敗すること(制約なしの生成後の書き換えに起因する計画不全)によるものと説明している。二段階の生成手法を用いると、失われた応答長の59〜96%を回復できる。
  • プロンプト表現に対する線形プローブによって、応答長を予測でき、命令チューニング済みモデルにおける崩壊の深刻さと相関する(相関係数 R² = 0.51〜0.93)。一方、ベースモデル(非命令チューニング)では、同じ制約下で体系的な崩壊はほとんど見られない。
  • 著者らは、一般的な「LLMをジャッジとして用いる」独立評価は劣化を見逃し得る(ペアワイズ評価で約23%の低下に対し、平均で約3.5%の低下にとどまる)と主張しており、制約付き生成の頑健性に対する評価の盲点が示唆される。