DialToM:状態駆動型対話の軌道予測のための心の理論(ToM)ベンチマーク
arXiv cs.CL / 2026/4/23
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、状態駆動型の対話を予測する文脈で、LLMの心の理論(ToM)を評価するための人手検証ベンチマーク「DialToM」を提案しています。
- DialToMは、心の状態を当てる「Literal ToM」と、その状態を使って状態に整合する対話の軌道を選ぶ「Functional ToM」を、Prospective Diagnostic Forecastingによって評価します。
- 結果として、モデルには推論の非対称性が見られます。すなわち、多くのモデルは心の状態の特定は得意でも、その理解を用いて社会的な対話軌道を予測することに失敗し、例外としてGemini 3 Proが挙げられます。
- 人間とLLMによる推論の意味的な類似性は弱いことも分かりました。
- 再現性を高めるために、DialToMのデータセットと評価コードが公開されています。




