要旨: 大規模言語モデル(LLM)の台頭により、これらのシステムが人間レベルの認知を示すのかどうかについて議論が起こっている。この議論においては、人間の認知の構造的な構成要素である、あまり注目が払われていない。それは「中核的信念」であり、世界観を構築する土台となる真理である。これらのコミットメントは通常、暴露(デバンク)に対して抵抗する。というのも、それらを放棄することは、現実をどう見るかというあり方における根本的な転換を意味するからである。本論文では、LLMがこれに類する中核的コミットメントを保持しているかどうかを問いかける。私たちは、5つの領域(科学、歴史、地理、生物学、数学)にわたり、私たちが「敵対的対話ツリー(Adversarial Dialogue Trees: ADTs)」と呼ぶ探索フレームワークを用いて調べた。その結果、ほとんどのLLMは安定した世界観を維持できないことが分かった。近年のいくつかのモデルでは安定性の向上が示されたものの、それらもまた最終的には会話上の圧力のもとで重要なコミットメントを維持できなかった。これらの結果は、モデル世代を通じた議論能力の向上を記録する一方で、現在のすべてのモデルが人間レベルの認知に不可欠な要素を欠いていることを示している。
LLMには「コアとなる信念」があるのか?
arXiv cs.LG / 2026/5/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが「コアとなる信念」(世界観を支える基礎的なコミットメント)を持つかどうか、またそれが否定・反証に対してどう振る舞うかを検証する。
- Adversarial Dialogue Trees(ADTs)と呼ばれる評価枠組みを提案し、科学・歴史・地理・生物・数学の5分野でLLMの挙動を調べる。
- 対象の多くのLLMは安定した世界観を維持できず、対話の中で基礎的コミットメントを一貫して保持できないことが示唆される。
- 改善された最近のモデルでも、会話上の圧力を受けると主要なコミットメントを最終的に維持できなかった。
- まとめると、世代を追うごとの議論力は向上している一方で、現在のモデルは人間レベルの認知に結びつく「安定したコアコミットメント」という重要要素を欠いていると結論づける。



