概要: 大規模言語モデル(LLM)は、顧客向けエージェントとしてますます導入されている一方で、確率的で多ターンの相互作用のために、その信頼性を評価することは依然として困難です。現在の評価プロトコルは、成功を推定するために、エージェントとユーザーの会話全体を線形のモンテカルロ・ロールアウトで展開することに依存しています。しかし、この方法は計算効率が悪く、同一の初期プレフィックスを繰り返し再生成してしまううえ、まれなユーザーの振る舞いに起因して生じる深い失敗モードをしばしば見落とします。
我々はDIVERT(DIVersity-Induced Evaluation via Branching of Trajectories)を提案します。これは、エージェントとユーザーの相互作用を体系的に探索するための、効率的でスナップショットベース、カバレッジ誘導型のユーザー・シミュレーション・フレームワークです。DIVERTは重要な意思決定ポイントにおいてエージェント環境の状態を完全に記録し、そのスナップショットから実行を再開することで、共有される会話プレフィックスの再利用を可能にし、冗長な計算を削減します。各分岐点から、フレームワークは、標的を定めた多様性を誘発するユーザー応答を用いて分岐し、異なる相互作用経路を指向的に探索できるようにします。
意味論的に多様で、十分に探索されていない軌道に評価を集中させることで、DIVERTは効率とカバレッジの両方を向上させます。実験結果は、DIVERTが標準的な線形ロールアウト・プロトコルと比べてトークンあたりでより多くの失敗を発見し、さらに、失敗が同定されるタスクの集合を拡張することを示しています。
多様性に導かれたユーザーシミュレーションによる効率的なエージェント評価
arXiv cs.AI / 2026/4/25
📰 ニュースModels & Research
要点
- この論文は、LLMを顧客向けエージェントとして導入する際の評価が、多様で確率的なマルチターン対話により難しいことを述べています。
- 既存の線形モンテカルロのロールアウトは、初期の会話接頭辞を繰り返し再生成するため計算効率が低く、まれに起きる重要なユーザー挙動による深い失敗モードを見落としがちだと指摘しています。
- 提案手法DIVERTは、スナップショットベースかつカバレッジ誘導型のユーザーシミュレーションであり、重要な意思決定ポイントでエージェントと環境の完全な状態を保存してそこから再開できる仕組みです。
- 分岐地点から、ダイバーシティを生むユーザー応答を用いて代替の相互作用経路を系統的に探索し、評価の効率とカバレッジを同時に高めます。
- 実験では、DIVERTが標準的なロールアウトよりも「トークンあたりで多くの失敗」を発見し、失敗が確認できるタスク範囲も広がることが示されています。



