選択肢順ランダム化が、プロンプト付きサンドバギングにおける分布的ポジション・アトラクタを明らかにする

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • arXivの追試研究では、「プロンプト付きサンドバギング」が回答回避ではなく位置(順序)への収束として現れるかを検証し、そのために選択肢順の周期的ランダム化を重要な対照として用いた。
  • 同一文字の診断は決定論的な位置追跡を確認できなかった(同一文字率37.3%)一方で、内容を完全にローテートしても応答位置の分布は非常に安定していた(Pearson r = 0.9994)。
  • 正解がモデルの好む位置Eに偶然一致すると正答率は72.1%まで上がり、位置Aでは4.3%まで低下するなど、位置に強い効果が見られた。
  • 著者らは、サンドバギング指示下で「ソフトな分布的アトラクタ」が形成され、E/F/Gを中心とする低エントロピーの応答位置の盆地に落ち込むため、集計レベルでは内容に対して概ね不変だと主張している。
  • 否定的対照としてQwen-2.5-7Bを用いたが、同様の分布シフトは観測されず、効果がサンドバギングのモードに固有であることを支持している。
  • 本研究は、7〜9B規模でこのサンドバギング・レジームを検出するためのブラックボックス指標として、応答位置エントロピーが有望だとしている。

Abstract

後継のパイロット(Cacioli, 2026)では、Llama-3-8B が、回答回避ではなく位置の崩れとして促されたサンドバギング(prompted sandbagging)を実装していることが示された。しかし、MMLU-Pro における固定された選択肢の並び順により、それがモデルレベルの位置優位ポリシーを反映しているのか、それともデータセットレベルのディストラクタ構造を反映しているのかは未解決のままだった。この事前登録済みの追試(3モデル、2,000件の MMLU-Pro、4条件、主たる試行 24,000回)では、重要な制御として選択肢の順序の周期的ランダム化を追加した。事前登録済みの項目レベルの同一文字診断は、決定論的な位置追跡を確認しなかった(同一文字率 37.3%、しきい値 50% 未満)。しかし、事前に指定された支持的解析によって、サンドバギング下での応答位置分布が、完全なコンテンツ回転のもとで非常に安定であることが明らかになった(Pearson r = 0.9994;Jensen-Shannon 距離 = 0.027;誠実な条件とサンドバギング条件の間の 0.386 と比較)。精度は、正答が偶然にも優先される位置 E に一致したとき 72.1% に跳ね上がり、位置 A では 4.3% まで低下した。これらのデータは、ソフトな分布的アトラクタ(soft distributional attractor)に対する強い証拠を提供する。すなわち、サンドバギングの指示のもとで、モデルは E/F/G を中心とする低エントロピーな応答位置の盆地に入り、集計レベルでは高い安定性を示し、かつ内容に対してほぼ不変である。Qwen-2.5-7B は負の対照として機能した(非準拠、分布のシフトなし)。これらの結果は、7〜9 billion(70〜90億)パラメータ規模において、応答位置のエントロピーが、このサンドバギング・モードの有望なブラックボックス的行動シグネチャであることを示す証拠となる。