オブジェクト記述に対する推論がタスク指向対話システムのコアファレンス解決を改善する

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、視覚的に根拠づけられた環境やメタデータが多様な状況での物体参照の結び付けが難しい点を踏まえ、タスク指向対話システムにおけるコアファレンス解決を扱う。
  • 詳細なオブジェクトメタデータと対話履歴を用い、推論によりコアファレンス解決を改善するための、単一モーダルのテスト時推論アプローチを提案する。
  • SIMMC 2.1データセットでの実験では、LLMが段階的な推論を生成し、対話文脈とシーン内の物体を効果的に対応付けられることが示される。
  • few-shot設定でのテスト時推論は、未見のシナリオや新しいオブジェクトに対しても良好に一般化し、クロスドメイン評価でエンコーダ型の教師あり手法より優れることを示す。

Abstract

タスク指向対話システムは、自然言語によるやり取りを通じて、行動の実行や情報の取得といった特定の目標の達成を支援します。コア参照解決の正確さは不可欠です。これは対話の中で対象物への言及(参照)を特定する作業であり、複雑なシーンと多様な対象物メタデータによって特徴づけられる視覚的に根拠づけられた環境では、ますます難しくなっています。しかし、タスク指向対話におけるコア参照解決は、領域間での汎化が不十分であることや、しばしばデータセット固有のアーティファクトに過適合してしまう、教師ありモデルへの強い依存によって制限されています。本研究では、単一モーダルのテスト時推論アプローチを提案し、大規模言語モデル(LLM)が詳細な対象物メタデータと対話履歴に基づいて推論できるようにすることで、コア参照解決を改善します。SIMMC 2.1データセットでの実験結果は、LLMが段階的な推論プロセスを生成し、対話文脈をシーン内の対象物と効果的に整合させられることを示しています。大規模な実験により、会話と対象物を正確に結び付けるモデルの能力が明らかになりました。さらに、少数ショット設定でのテスト時推論は、未見の状況や新規の対象物へ対しても効果的に汎化し、領域をまたいだ評価において、エンコーダベースの教師あり手法を上回ることを示します。これらの知見は、タスク指向対話システムの頑健性と汎化性を高めるうえで、構造化されたメタデータと慎重なプロンプト設計が重要な役割を果たすことを強調しています。