AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

DialToM：状態駆動型対話の軌道予測のための心の理論（ToM）ベンチマーク

arXiv cs.CL / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文では、状態駆動型の対話を予測する文脈で、LLMの心の理論（ToM）を評価するための人手検証ベンチマーク「DialToM」を提案しています。
DialToMは、心の状態を当てる「Literal ToM」と、その状態を使って状態に整合する対話の軌道を選ぶ「Functional ToM」を、Prospective Diagnostic Forecastingによって評価します。
結果として、モデルには推論の非対称性が見られます。すなわち、多くのモデルは心の状態の特定は得意でも、その理解を用いて社会的な対話軌道を予測することに失敗し、例外としてGemini 3 Proが挙げられます。
人間とLLMによる推論の意味的な類似性は弱いことも分かりました。
再現性を高めるために、DialToMのデータセットと評価コードが公開されています。

関連記事

生成AIネーティブ「Wave Terminal」、ログのコピペなしでAIが的確に助言

生成AIネーティブ「Wave Terminal」、ログのコピペなしでAIが的確に助言

日経XTECH

反AI派の人たちは「本物の農家はトラクターなんて使わない」というノリを出していて、それがもう古い。

反AI派の人たちは「本物の農家はトラクターなんて使わない」というノリを出していて、それがもう古い。

Dev.to

プライベートデータでChatGPTをトレーニングする：技術リファレンス

プライベートデータでChatGPTをトレーニングする：技術リファレンス

Dev.to

インテリジェント・ソフトウェアの台頭：AIが現代のプロダクト開発をどう変えているか

インテリジェント・ソフトウェアの台頭：AIが現代のプロダクト開発をどう変えているか

Dev.to

AI Tutor and Doubt Solver — EaseLearn AI Complete Review 2026

AI Tutor and Doubt Solver — EaseLearn AI Complete Review 2026

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告