依頼したことを忘れましたか? 大規模言語モデルにおける展望記憶の失敗

arXiv cs.LG / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模言語モデルが同時に負荷の高いタスクを完了する必要がある状況で、フォーマット指示に失敗しがちな理由を調べ、認知心理学における「展望記憶」の問題として位置づける。
  • 3つのモデル系統と8,000件以上のプロンプトにわたって、並行タスク負荷がかかるとフォーマット遵守率が2〜21%低下し、測定可能な干渉効果が示される。
  • 脆弱性は制約タイプに強く依存する。終端(応答境界)制約が最も影響を受け、遵守率の低下は最大50%に達する一方、回避(avoidance)制約の劣化はより小さい。
  • 顕著性を高めるフォーマット(明示的な指示の枠組み付けに加えて、末尾のリマインダー)を追加すると、遵守が大幅に回復し、多くの設定で90〜100%にまで戻る。
  • 本研究では双方向の干渉(フォーマット制約がタスク精度を下げ得ること、例:GSM8Kが93%から27%へ低下)も見出される。さらに、制約を積み重ねるほど遵守が悪化することが、公的データセットに対するプログラムによるチェッカーを用いて示される。

要旨: 大規模言語モデルは、要求の厳しいタスクを同時に実行しなければならない場合に、しばしばフォーマット指示を満たせません。本研究では、認知心理学における展望記憶(prospective memory)に着想を得た観点から、この挙動を検討します。検証可能なフォーマット制約と、複雑性が増すベンチマーク・タスクを組み合わせた制御されたパラダイムを用います。3つのモデル系列および8,000件超のプロンプトにわたって、並行タスク負荷下ではコンプライアンスが2-21%低下します。脆弱性はタイプに強く依存します。終端制約(応答の境界での行動を要求するもの)が最も悪化し、低下は最大50%に達します。一方で回避制約は、比較的頑健です。顕著性を高めたフォーマット(明示的な指示の枠組み付けに加えて、末尾のリマインダー)により、失われたコンプライアンスの多くが回復し、多くの状況で性能を90-100%にまで戻せます。干渉は双方向です。フォーマット制約はタスク精度も低下させ得ます。あるモデルではGSM8Kの精度が93%から27%へと低下しました。追加のスタッキング実験では、制約が蓄積されるにつれて、共同コンプライアンスが急激に低下します。すべての結果は、公的に利用可能なデータセット上で、LLMを審判として用いるコンポーネントなしの決定論的なプログラムによる検査器(checkers)を用いています。