CoMMET: LLM は心の理論タスクをどの程度まで実行できるか？

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

CoMMET は、LLMs における Theory of Mind の評価を目的とした新しいマルチモーダルベンチマークデータセットであり、テキスト入力を超えた評価を拡張します。
マルチターンのテストを導入し、Theory of Mind Booklet Task に触発されたもので、これまでのところ同種の初のマルチモーダル ToM ベンチマークと報じられています。
本研究は、複数のLLMファミリーとサイズを評価し、長所と限界を分析するとともに、今後の改良の方向性を特定します。
社会的認知能力を探ることで、CoMMET はより自然で効果的な人間-AI の相互作用を可能にすることを目指します。
このリリースは、AI研究コミュニティに対して、モダリティ横断および会話ターンを跨ぐ ToM 関連の性能をベンチマークする新たなリソースを提供します。

心の理論（ToM）— 自分自身および他者の心的状態を推論する能力 — は、人間の社会的知性の基礎である。大規模言語モデル（LLMs）が現実世界のアプリケーションで広く普及するにつれて、このレベルの社会的推論能力を検証することは、効果的で自然な対話のために不可欠である。しかし、LLMs の ToM を評価する既存のベンチマークは限られており、ほとんどがテキスト入力のみに依存し、信念関連タスクに狭く焦点を当てている。本論文では、Theory of Mind Booklet Task に触発された新しいマルチモーダルベンチマークデータセット、CoMMET（Comprehensive Mental states and Moral Evaluation Task）を提案する。CoMMET は、評価の範囲をより広い心的状態に拡大し、マルチターンのテストを導入する。私たちの知る限り、これはマルチターンの対話設定で ToM を評価する初のマルチモーダルデータセットである。異なるファミリーとサイズの LLMs を網羅的に評価することで、現行モデルの長所と限界を分析し、今後の改善の方向性を特定する。我々の研究は、現代の LLM の社会的認知能力に対するより深い理解を提供する。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

CoMMET: LLM は心の理論タスクをどの程度まで実行できるか？

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer