対話の共通基盤を表すための「機械による心的イメージ」活用:状況に応じた対話における表現

arXiv cs.CL / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、状況に応じた対話における重要な弱点として、会話エージェントが持続的な共有文脈を維持できず、「表象のぼやけ(representational blur)」によって別々の対象がテキスト上で同一視されてしまう問題を扱っています。
  • ダイアログの状態を段階的に取り込み、後で参照できる「持続的な視覚履歴」に変換する「アクティブな視覚的足場(active visual scaffolding)」の枠組みを提案します。
  • IndiRefベンチマークでの評価では、対話全体の推論に比べて「段階的な外部化」だけでも改善し、さらに視覚的足場により表象のぼやけが抑えられ、場面へのより具体的なコミットが促されることが示されます。
  • 描けない情報ではテキスト表現が依然として有利であり、最良の総合性能は、視覚(描写的)とテキスト(命題的)を組み合わせたハイブリッドなマルチモーダル設定で得られたと報告されています。

Abstract

状況に応じた対話では、話者が、孤立した発話だけを推論するのではなく、共有されている文脈の信頼できる表現を維持する必要がある。現在の対話エージェントの多くは、この要件、とりわけ共通基盤を直近のコンテキストウィンドウを超えて保持しなければならない場合において、しばしばうまく対応できない。そのような設定では、きめ細かな区別が純粋にテキスト表現に圧縮されることが多く、その結果として、我々が \emph{representational blur(表現のぼけ)} と呼ぶ重要な失敗モードが生じる。これは、似ているが異なる対象が、互換的な記述へと崩れ落ちてしまうものである。この意味の平坦化は、グラウンディングの錯覚を生み出す。すなわち、エージェントは局所的には首尾一貫して見えるものの、共有文脈を時間を通じて持続的に追跡することに失敗する。人間の推論における心的イメージの役割に着想を得て、またマルチモーダルモデルの利用可能性が高まっていることに基づき、対話中に、これらの制限に対処するために、エージェントに相当する描写的(depictive)中間表現を構築する能力を与えられるかどうかを検討する。そこで本研究では、対話状態を段階的に永続的な視覚的履歴へと変換し、後にグラウンディングされた応答生成のために参照できるようにする能動的な視覚的足場化(active visual scaffolding)フレームワークを提案する。IndiRefベンチマークでの評価により、段階的な外部化それ自体が、フル対話の推論よりも改善をもたらすことが示され、さらに、視覚的足場化は、表現のぼけを減らし、具体的な場面へのコミットメントを強制することで、追加の向上を提供する。同時に、描写不可能な情報に対してはテキスト表現が依然として有利であり、ハイブリッドなマルチモーダル設定が全体として最良の性能をもたらす。これらの知見は、描写的情報と命題的情報を統合する、明示的なマルチモーダルな共通基盤表現を対話エージェントが持つことの有益さを示唆している。