推論と行動をつなぐ：効率的な領域横断タスク指向対話のためのハイブリッドLLM-RLフレームワーク

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、暗黙・明示の実行可能性（フィージビリティ）制約を推論しつつ、長期的で複数ターンの行動を計画する必要がある領域横断のタスク指向対話を扱っています。
単純にLLMと強化学習（RL）を組み合わせるだけでは、未検証のLLM出力が状態表現を壊し、方策学習を誤らせうるため脆いと主張しています。
そこで、VLK-RLという枠組みを提案し、まずLLMで候補となる制約を引き出し、次にデュアルロールのクロス・エグザミネーション手順で検証して、幻覚やターン間の不整合を抑えます。
検証された制約は、オントロジーに整合したスロット値表現へ変換され、RLが制約を考慮した構造化された状態で最適化できるようにします。
複数のベンチマーク実験の結果、VLK-RLは汎化性能と頑健性を向上させ、長期タスクで強力な単一モデルのベースラインを上回ることが示されています。