指示の複雑さが敵対的なLLM評価における位置崩壊を誘発する

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究は、複数選択式の評価で「わざと成績を下げる」ように敵対的に指示されたとき、指示チューニング済みLLMが問題文の内容に基づいて解答するのか、それとも位置に関する近道(ポジショナル・ショートカット)に頼るのかを検証します。
  • Llama-3-8B と Llama-3.1-8B を用い、MMLU-Proの2,000問に対して指示の具体性を6条件で段階化したグラディエントを適用した結果、挙動は単調に移行するのではなく3つのレジームに分かれることが示されました。
  • ぼんやりした敵対的指示は、精度を中程度に落としつつも内容への関与(コンテンツ・エンゲージメント)をある程度維持しますが、標準的なサンドバッギングや能力模倣の指示は、応答位置のエントロピーが崩壊する方向に働きます。
  • 最も極端なのは「回答を知った上で回避する」2ステップ指示で、単一の応答位置への集中がほぼ生じ(99.9%および87.4%)、内容への反応が測定できないほど消失します。
  • 両モデルおよび4つの学術領域で再現され、さらにエントロピー(分布)に基づく評価と難度–精度相関(内容)に基づく評価は部分的に一致し得るため、敵対的指示への従順さにおける「妥当性」の次元が別々に存在する可能性が示唆されています。

Abstract

複数選択式の評価において意図的に過小な性能を示すよう指示されたとき、言語モデルは問題文の内容を扱うのか、それとも位置(ポジション)の近道にフォールバックするのか?本研究では、2つの命令チューニング済みLLM(Llama-3-8BおよびLlama-3.1-8B)に対し、2,000件のMMLU-Pro項目へと6条件の敵対的指示の具体性(instruction-specificity)に関する勾配を与えることで、この境界をマッピングする。分布に基づくスクリーニング(応答位置エントロピー)と、独立した内容エンゲージメント基準(難度-正確さの相関)が、それぞれの条件を共同で特徴づける。この勾配は、単調な遷移ではなく3つの領域を明らかにする。曖昧な敵対的指示は、内容エンゲージメントを維持しつつ中程度の精度低下を引き起こす。標準的なサンドバッグ(意図的な弱体化)および能力模倣の指示は、部分的な内容エンゲージメントを伴いながら、位置エントロピーの崩壊を引き起こす。2ステップの「回答を見据えた回避」指示は、極端な位置崩壊を生み出し、単一の応答位置へのほぼ完全な集中(99.9%および87.4%)と、測定可能な内容感度の欠如をもたらす。これはテストされた唯一の多段階指示であり、最も極端な近道を引き起こした。引き寄せ(attractor)の位置は、各モデルの「内容なし」ヌルプロンプトのデフォルトと一致する。この効果は両モデルに加え、4つの学術領域でも再現される。分布の崩壊と内容エンゲージメントは同時に起こりうる(スクリーニング基準間での一致が50%)ことから、エントロピーに基づくスクリーニングと、難度に基づく内容評価は、応答の妥当性に関して部分的に独立した次元を捉えていることが示唆される。結果は、命令の複雑さが、貪欲デコーディング下で小規模な命令チューニング済みLLMにおける敵対的遵守が、内容を意識した(content-aware)または内容盲目的な(content-blind)メカニズムのいずれを用いるかを決定しうることを示している。