多ドメイン対話状態追跡のための動的知識融合
arXiv cs.CL / 2026/3/12
📰 ニュースModels & Research
要点
- 本論文は、多ドメイン対話状態追跡における対話履歴の扱いとデータ不足の改善を目的とした、二段階の動的知識融合フレームワークを提案する。
- 第一段階では、対比学習で訓練されたエンコーダー専用ネットワークが対話履歴と候補スロットを符号化し、相関スコアに基づいて関連するスロットを選択する。
- 第二段階では、選択されたスロットを文脈プロンプトとして活用することで、対話状態追跡の正確さと一貫性を高める動的知識融合を行う。
- この設計は、対話の文脈とドメイン知識のより正確な統合を可能にする。
- 多ドメイン対話ベンチマークの実験は、追跡精度と一般化能力の双方を顕著に向上させ、複雑な対話シナリオを扱う能力を検証している。
要旨: タスク指向対話モデルの性能は、対話状態をどれだけうまく追跡できるかに強く結びついており、これらは複数ターンの相互作用を通じてユーザー情報を記録・更新する。しかし、現状の多ドメインDSTには、対話履歴を効果的にモデル化する難しさと、注釈付きデータの不足という二つの重要な課題が存在し、いずれもモデルの性能を妨げている。前述の問題を解決するため、我々は多ドメインDSTに適用可能な動的知識融合フレームワークを開発した。モデルは二段階で動作する。第一段階では、対比学習で訓練されたエンコーダー専用ネットワークが対話履歴と候補スロットを符号化し、相関スコアに基づいて関連するスロットを選択する。第二段階では、選択されたスロットの構造化情報を文脈プロンプトとして活用し、対話状態追跡の正確さと一貫性を高める動的知識融合を利用する。この設計は、対話文脈とドメイン知識のより正確な統合を可能にする。多ドメイン対話ベンチマークから得られた結果は、提案手法が追跡精度と一般化能力の双方を著しく向上させ、複雑な対話シナリオを扱う能力を検証している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning