PersonalHomeBench：パーソナライズされたスマートホームにおけるエージェントの評価

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本記事では、パーソナライズされたスマートホーム環境でエージェント型アシスタントとして振る舞う基盤モデルを評価するための新しいベンチマーク「PersonalHomeBench」を提案します。
ベンチマークは、より豊かな家庭内状態を段階的に構築する反復プロセスによって作られ、その状態を用いて個人化された状況依存タスクを生成します。
さらに、現実的なエージェントと環境の相互作用を可能にするために、家庭情報の取得、家電の制御、状況理解を支える「PersonalHomeTools」も提供されます。
実験では、単一モダリティ／マルチモダリティの観測下で、反応型と先読み型の双方のエージェント能力を評価し、タスクの複雑さが増すにつれて性能が低下することを示します。
とりわけ、反事実推論と部分観測下での課題に大きな失敗が見られ、ツールを使った情報収集が有効に必要となることが示唆されます。

要旨: エージェンティックAIシステムは現実世界での応用に向けて急速に進歩している一方で、複雑かつ個別化された環境における準備状況が十分に特定されていません。このギャップに対処するために、本稿では、パーソナライズされたスマートホーム環境においてエージェント的アシスタントとして基盤モデルを評価するためのベンチマーク「PersonalHomeBench」を導入します。本ベンチマークは反復的なプロセスにより構築され、豊かな家庭内状態を段階的に形成し、その状態を用いて個別化され文脈に依存するタスクを生成します。現実的なエージェントと環境の相互作用を支えるために、家庭内の情報取得、家電の制御、状況理解を可能にする包括的なツールボックス「PersonalHomeTools」を提供します。PersonalHomeBenchは、単一モーダル観測および複数モーダル観測のもとで、反応型および先回り型の双方のエージェンティック能力を評価します。徹底的な実験により、タスクの複雑性が増すにつれて体系的な性能低下が起こることが明らかになり、とりわけ反事実推論の失敗や部分観測下での顕著な失敗が見られます。そこでは、有効なツールベースの情報収集が必要となります。これらの結果は、PersonalHomeBenchが、個別化されたエージェンティック推論および計画の頑健性と限界を分析するための厳密な評価プラットフォームとして位置付けられることを示しています。