LLMにおける安定した内部信念の欠如を探る

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、パーソナ(人物像)駆動型LLMが、長く複数ターンにわたる対話の中で行動傾向を安定に維持できない理由を調べ、一定の一貫した内部信念表現が存在しないことに焦点を当てる。
  • モデルに対して、各ターンでyes/noの推測に答えながら、秘密に選ばれたターゲットを維持させる、20問形式のなぞなぞゲームを用いた暗黙的一貫性テストを導入する。
  • 評価結果から、モデルは時間の経過に伴って、明示されていない目標を維持することが難しく、暗黙の「goals」がターン間で変化してしまうことが示される。
  • 選択されたターゲットが対話文脈に明示的に含まれる場合にのみ、モデルの潜在的な一貫性が改善し、現行システムにはより強い目標の固定(アンカリング)が必要であることを示唆する。
  • これらの結果は、対話アプリケーションにおけるより現実的なパーソナリティモデリングを可能にするため、暗黙の目標をターン間で維持する仕組みの必要性を示している。