再帰型LLMループにおける摂動用量応答:生の切替、確率的な床、追加・置換・対話更新での持続的エスケープ

arXiv cs.AI / 2026/5/5

💬 オピニオンModels & Research

要点

  • 本論文は、30ステップの再帰型LLMループが“アトラクタ的”パターンから別のパターンへと移るために、どれほどの注入テキスト(「用量」)が必要か、そしてその誘導が持続するかを調べている。
  • appendモードの再帰ループでは、持続的なリダイレクトがメモリポリシーに強く依存することが分かり、末尾クリップが小さい設定では永続性が抑えられる(用量400で目的地整合的持続は約16%)一方、フル履歴ではより高くなり(約400トークンで50%超、ソース・ベイシン・エスケープは75–80%で飽和)、傾向が大きく異なる。
  • 複数の偽証(反証)テストにより、見かけ上の「高用量で目的地整合的に落ち込む」現象は、安定した構造的非対称性というより有限ホライズンかつエンドポイントのタイミングに敏感な効果であることが示唆される。
  • replaceモードの「raw switching(生の切替)」はデフォルト手順ではほぼ飽和するが、実際には状態リセットによる上書き(overwrite)を反映している可能性が高く、insertモードのプロービングでは大きく低下する(およそ12–32%)。
  • 著者らはGPT-4o-miniで37件の実験を行い、ベンダー側でGPT-4.1-nanoにも再現検証を実施している。評価では一過性の移動と持続的なエスケープを分離し、確率的な床を差し引き、文脈更新ルールを安全性に関わる設計選択として扱うべきだと強調している。

要旨: 再帰的な言語モデルのループは、しばしば認識可能なアトラクタ(吸引)に類似したパターンへ落ち着きます。実用上の問いは、落ち着いたループを別の場所へ移動させるのにどれほど注入テキストが必要か、そしてその移動がどれだけ持続するか、です。本研究では、モデルを文脈更新規則から切り離し、30ステップの再帰ループでこれを調べます。付加(append)、置換(replace)、対話(dialog)の更新は、同一の生成器に対して異なる履歴を提示します。
主な結果は、付加モードの再帰ループにおける持続的なリダイレクトが、メモリ・ポリシーに条件付けられていることです。12,000文字の末尾クリップを適用すると、到達先に整合的な持続性は用量400で約16%まで頭打ちし、保持された送信元(ソース)ベイスンからの脱出は約36%で頭打ちしますが、いずれも50%を超えません。完全履歴プロトコルでは、保持された送信元ベイスンからの脱出は用量400トークン付近で50%を超え、1,500トークンまでに75〜80%で飽和します。到達先に整合的な持続性は、1,500トークン付近で最初に0.50に到達し(Wilson 95% CI [0.41, 0.61])、その後も同様に推移します。
4ステップの反証(フォルシフィケーション)バッテリー(異質性の制御、階層的マクロマージを伴う粒度スイープ、遷移エントロピー診断、長期ホライゾンの軌跡継続)により、高用量における到達先に整合的な落ち込み(dip)は、安定した構造的非対称性というよりも有限ホライゾンで、エンドポイントの定義に敏感な特徴であることが再解釈されます。規範的(canonical)な大きさの半分はエンドポイントのタイミングによるもので、残差は、凍結した規範的クラスター基底のもとで、ステップ29の-0.143からステップ79の-0.039へと73%低下します。ブートストラップ区間はゼロをまたぎます。
置換モードにおける生のスイッチングは、デフォルト・プロトコルではほぼ飽和していますが、主として状態リセットによる上書き(overwrite)を反映しています。挿入モード(insert-mode)のプローブでは、それが12〜32%に低下します。私たちは、gpt-4o-miniで37の実験を行い、gpt-4.1-nanoに対してベンダー内の再現(within-vendor replication)を実施しました。再帰ループの評価では、一時的な移動と持続的な脱出を区別し、確率的なフロアを差し引き、文脈更新規則を安全性に関わる設計上の選択として扱うべきです。