対話の共通基盤を表すための「機械による心的イメージ」活用:状況に応じた対話における表現
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、状況に応じた対話における重要な弱点として、会話エージェントが持続的な共有文脈を維持できず、「表象のぼやけ(representational blur)」によって別々の対象がテキスト上で同一視されてしまう問題を扱っています。
- ダイアログの状態を段階的に取り込み、後で参照できる「持続的な視覚履歴」に変換する「アクティブな視覚的足場(active visual scaffolding)」の枠組みを提案します。
- IndiRefベンチマークでの評価では、対話全体の推論に比べて「段階的な外部化」だけでも改善し、さらに視覚的足場により表象のぼやけが抑えられ、場面へのより具体的なコミットが促されることが示されます。
- 描けない情報ではテキスト表現が依然として有利であり、最良の総合性能は、視覚(描写的)とテキスト(命題的)を組み合わせたハイブリッドなマルチモーダル設定で得られたと報告されています。


