CoMMET: LLM は心の理論タスクをどの程度まで実行できるか?
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CoMMET は、LLMs における Theory of Mind の評価を目的とした新しいマルチモーダルベンチマークデータセットであり、テキスト入力を超えた評価を拡張します。
- マルチターンのテストを導入し、Theory of Mind Booklet Task に触発されたもので、これまでのところ同種の初のマルチモーダル ToM ベンチマークと報じられています。
- 本研究は、複数のLLMファミリーとサイズを評価し、長所と限界を分析するとともに、今後の改良の方向性を特定します。
- 社会的認知能力を探ることで、CoMMET はより自然で効果的な人間-AI の相互作用を可能にすることを目指します。
- このリリースは、AI研究コミュニティに対して、モダリティ横断および会話ターンを跨ぐ ToM 関連の性能をベンチマークする新たなリソースを提供します。
心の理論(ToM)— 自分自身および他者の心的状態を推論する能力 — は、人間の社会的知性の基礎である。大規模言語モデル(LLMs)が現実世界のアプリケーションで広く普及するにつれて、このレベルの社会的推論能力を検証することは、効果的で自然な対話のために不可欠である。しかし、LLMs の ToM を評価する既存のベンチマークは限られており、ほとんどがテキスト入力のみに依存し、信念関連タスクに狭く焦点を当てている。本論文では、Theory of Mind Booklet Task に触発された新しいマルチモーダルベンチマークデータセット、CoMMET(Comprehensive Mental states and Moral Evaluation Task)を提案する。CoMMET は、評価の範囲をより広い心的状態に拡大し、マルチターンのテストを導入する。私たちの知る限り、これはマルチターンの対話設定で ToM を評価する初のマルチモーダルデータセットである。異なるファミリーとサイズの LLMs を網羅的に評価することで、現行モデルの長所と限界を分析し、今後の改善の方向性を特定する。我々の研究は、現代の LLM の社会的認知能力に対するより深い理解を提供する。

