実働する心の理論:動的な人間・エージェント協働における命令推論タスク

arXiv cs.CL / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、命令が不完全または曖昧なときに、LLMエージェントが人間の依頼者の言外の意図を推論できるかを検討し、これを「心の理論(ToM)」能力として扱います。
  • 「Instruction Inference(命令推論)」と呼ぶ新しい評価タスク/ベンチマークを提案し、動的で目的志向の人間・エージェント協働においてToMをテストできるようにしています。
  • 著者らはLLMベースのエージェント「Tomcat」を提案し、2つのバリアント(Fs-CoT:少数の例による構造化された推論、CP:コモンセンス・プロンプトに基づく推論)を用意しています。
  • TomcatはGPT-4o、DeepSeek-R1、Gemma-3-27Bの3つの主要LLM上で実装され、CPバリアントと同じ情報を用いた52人の被験者によるユーザー研究で評価されます。
  • 結果として、Fs-CoT(特にGPT-4oとDeepSeek-R1)では、意図精度・行動の最適性・計画の最適性の指標で人間参加者に匹敵する性能が示され、協働におけるToMの有望さが示唆されます。