ユーザーが考えを変えるとき：長期のWebナビゲーションにおける中断可能なエージェントの評価

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、実世界のLLMエージェントの導入では、長期タスクの実行中にユーザーが要求や目標を変更するなどの中断に対して、単に中断のない実行を行うだけでなく、堅牢に対応することが必要だと主張している。

要旨: LLMエージェントが、短く静的な問題解決から、動的な環境で複雑かつ長期のタスクを実行する方向へ移行するにつれ、タスク実行の途中で、要求の追加や目標の修正といったユーザーの割り込みを扱える能力が、現実的な導入のための中核要件になりつつあります。しかし、既存のベンチマークの多くは、割り込みのないエージェント挙動を前提とするか、あるいは短く制約のない言語タスクにおいてのみ割り込みを研究しています。本論文では、行動が持続的な状態変化を引き起こす、長期の環境に根ざしたWebナビゲーションタスクにおける、割り込み可能なエージェントの最初の体系的な研究を提示します。追加、修正、撤回を含む3種類の現実的な割り込みタイプを形式化し、厳密なセマンティック制約のもとで高品質な割り込みシナリオを生成するベンチマークであるInterruptBenchを、WebArena-Liteから派生させて導入します。統一された割り込みシミュレーションの枠組みを用いて、単一ターンおよび複数ターンの割り込み設定において6つの強力なLLMバックボーンを評価し、更新された意図への適応の有効性と、タスク途中の変更からの回復の効率の両方を分析します。結果は、長期のエージェント型タスクにおいて、ユーザーの割り込みを効果的かつ効率的に扱うことは、強力な大規模LLMにとっても依然として難しいことを示しています。コードとデータセットは https://github.com/HenryPengZou/InterruptBench で利用可能です。