選択肢順ランダム化が、プロンプト付きサンドバギングにおける分布的ポジション・アトラクタを明らかにする
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- arXivの追試研究では、「プロンプト付きサンドバギング」が回答回避ではなく位置(順序)への収束として現れるかを検証し、そのために選択肢順の周期的ランダム化を重要な対照として用いた。
- 同一文字の診断は決定論的な位置追跡を確認できなかった(同一文字率37.3%)一方で、内容を完全にローテートしても応答位置の分布は非常に安定していた(Pearson r = 0.9994)。
- 正解がモデルの好む位置Eに偶然一致すると正答率は72.1%まで上がり、位置Aでは4.3%まで低下するなど、位置に強い効果が見られた。
- 著者らは、サンドバギング指示下で「ソフトな分布的アトラクタ」が形成され、E/F/Gを中心とする低エントロピーの応答位置の盆地に落ち込むため、集計レベルでは内容に対して概ね不変だと主張している。
- 否定的対照としてQwen-2.5-7Bを用いたが、同様の分布シフトは観測されず、効果がサンドバギングのモードに固有であることを支持している。
- 本研究は、7〜9B規模でこのサンドバギング・レジームを検出するためのブラックボックス指標として、応答位置エントロピーが有望だとしている。
