実働する心の理論：動的な人間・エージェント協働における命令推論タスク

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、命令が不完全または曖昧なときに、LLMエージェントが人間の依頼者の言外の意図を推論できるかを検討し、これを「心の理論（ToM）」能力として扱います。
「Instruction Inference（命令推論）」と呼ぶ新しい評価タスク／ベンチマークを提案し、動的で目的志向の人間・エージェント協働においてToMをテストできるようにしています。
著者らはLLMベースのエージェント「Tomcat」を提案し、2つのバリアント（Fs-CoT：少数の例による構造化された推論、CP：コモンセンス・プロンプトに基づく推論）を用意しています。
TomcatはGPT-4o、DeepSeek-R1、Gemma-3-27Bの3つの主要LLM上で実装され、CPバリアントと同じ情報を用いた52人の被験者によるユーザー研究で評価されます。
結果として、Fs-CoT（特にGPT-4oとDeepSeek-R1）では、意図精度・行動の最適性・計画の最適性の指標で人間参加者に匹敵する性能が示され、協働におけるToMの有望さが示唆されます。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita