DialToM:状態駆動型対話の軌道予測のための心の理論(ToM)ベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、状態駆動型の対話を予測する文脈で、LLMの心の理論(ToM)を評価するための人手検証ベンチマーク「DialToM」を提案しています。
  • DialToMは、心の状態を当てる「Literal ToM」と、その状態を使って状態に整合する対話の軌道を選ぶ「Functional ToM」を、Prospective Diagnostic Forecastingによって評価します。
  • 結果として、モデルには推論の非対称性が見られます。すなわち、多くのモデルは心の状態の特定は得意でも、その理解を用いて社会的な対話軌道を予測することに失敗し、例外としてGemini 3 Proが挙げられます。
  • 人間とLLMによる推論の意味的な類似性は弱いことも分かりました。
  • 再現性を高めるために、DialToMのデータセットと評価コードが公開されています。