大規模言語モデルは心の理論を有するか？奇妙な物語パラダイムを用いた比較評価

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の大規模言語モデルが心の理論を有するかを評価するため、改変した奇妙な物語パラダイムを用いて、物語の登場人物の信念・意図・感情を検証する。
本研究は5つの大規模言語モデル（LLM）を試験し、人間の対照群と比較した。初期・小型モデルには性能のギャップが見られた一方、GPT-4oは高い精度と頑健性を示し、困難な状況下で人間に匹敵する結果を示した。
GPT-4oの性能は、進んだ大規模言語モデルには心的状態の帰属能力がある程度あることを示唆するが、これが真の理解を反映しているのか、それともパターン補完に過ぎないのかを結論づけるには至らない。
著者らは大規模言語モデルの認知的地位への含意を論じ、真の理解と統計的近似との境界を強調している。

要旨: 本研究は、現在の大規模言語モデル（LLMs）が心の理論（ToM）能力――具体的には、テキストから他者の信念・意図・感情を推測する能力――を示すかどうかを検討する。LLMsは社会的具現性や他の精神表象の現れにアクセスすることなく言語データで訓練されているため、彼らの明らかな社会認知的推論は、その理解の本質について重要な疑問を提起する。彼らは出力の上で人間の能力と区別できないほど堅牢な心的状態の帰属を示すことができるのか、それとも彼らの出力は表面的なパターン補完を反映しているだけなのか。この問題に対処するため、5つのLLMを対象に実験を行い、人間の対照者の性能と比較した。これは人間のToM研究で広く用いられているテキストベースのツールの適応版を用いた。テストは、物語の登場人物の信念・意図・感情についての質問に答えることを含む。結果はモデル間に性能の差を示した。初期の小型モデルは、利用可能な関連推論手掛かりの数に強く影響され、ある程度はテキスト内の無関係または注意を散らす情報の存在にも脆弱であった。一方、GPT-4oは高い正確性と強い堅牢性を示し、最も難しい条件下でも人間と同程度の性能を発揮した。本研究は、LLMsの認知的状態と真の理解と統計的近似の境界についての継続的な議論に寄与する。

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

完全ガイド: AIでお金を稼ぐ方法

Dev.to

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

Dev.to

脱メチル化

Dev.to

大規模言語モデルは心の理論を有するか？奇妙な物語パラダイムを用いた比較評価

要点

関連記事

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

完全ガイド: AIでお金を稼ぐ方法

AIでポートフォリオを分析して53/100を取得 — どうやって85点以上に改善したか

脱メチル化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer