プロアクティブエージェント研究環境:アクティブユーザーをシミュレートしてプロアクティブアシスタントを評価する

arXiv cs.AI / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、プロアクティブなアシスタントの開発が現実的なユーザーシミュレーションの欠如によって妨げられていると主張する。従来の手法はアプリを、状態を持たないツール呼び出しAPIとして扱い、状態を持つ連続的な環境として扱っていないためである。
  • プロアクティブエージェント研究環境(Pare)を提案し、アプリケーションを有限状態機械としてモデル化することで、ユーザーシミュレータが状態を意識しつつナビゲートし、状態に依存したアクションを生成できるようにする。
  • フレームワークは、コミュニケーション、プロダクティビティ、スケジューリング、ライフスタイルの各アプリを対象に合計143のタスクを扱うベンチマーク「Pare-Bench」に拡張される。
  • Pare-Benchは、文脈の観測、目標の推論、適切な介入タイミングの判断、複数のアプリにまたがるアクションの調整といった主要能力を評価するために設計されている。

Abstract

ユーザーのニーズを先読みし、自律的にタスクを実行する先回り型エージェントは、デジタルアシスタントとして大きな可能性を秘めています。しかし、現実的なユーザーシミュレーションの枠組みが欠如していることが、その開発を妨げています。既存のアプローチではアプリをフラットなツール呼び出しAPIとしてモデル化しており、デジタル環境におけるユーザー対話の状態を伴う逐次的な性質を捉えられません。その結果、現実的なユーザーシミュレーションが実現困難になっています。私たちは、デジタル環境における先回り型エージェントを構築・評価するための枠組みである Proactive Agent Research Environment(Pare)を提案します。Pare は、ユーザーシミュレータのために、状態を保持したナビゲーションと、状態に依存するアクション空間を備えた有限状態機械としてアプリケーションをモデル化し、能動的なユーザーシミュレーションを可能にします。この基盤の上に、コミュニケーション、プロダクティビティ、スケジューリング、ライフスタイルの各アプリにまたがる 143 の多様なタスクからなるベンチマークである Pare-Bench を提示します。これは、文脈の観察、目標の推論、介入タイミング、複数アプリのオーケストレーションをテストすることを目的としています。