LifeSim: パーソナライズされたアシスタント評価のための長期的なユーザーライフシミュレータ
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- LifeSimは、Belief-Desire-Intention(BDI)フレームワークを用いて物理環境内でユーザーの認知をモデル化し、整合性のある長期的ライフ・トラジェクトリと意図駆動の相互作用を生成するユーザーシミュレータを導入します。
- LifeSim-Evalを提案します。8つの生活領域と1,200のシナリオを網羅する包括的なベンチマークで、複数ターンの対話を用いて、明示的・暗黙的な意図を満たす能力、ユーザープロファイルの回復、質の高い応答の提供を評価します。
- 実験の結果、現行の大規模言語モデルは、暗黙の意図の理解と長期的なユーザー嗜好のモデリングの両方において、単一シナリオおよび長期的設定のいずれでも著しく困難を示します。
- 本研究は、評価を現実世界のユーザーとアシスタントの対話により適合させることを目指しており、パーソナライズされたAIアシスタントの今後の研究開発を導く可能性があります。
本文: arXiv:2603.12152v1 アナウンス種別: 新着
要旨: 大規模言語モデル(LLMs)の急速な進展は、普遍的なAIアシスタントに向けた進歩を加速させています。しかし、パーソナライズされたアシスタントのための既存のベンチマークは、現実世界のユーザー-アシスタントの相互作用と一致しておらず、外部コンテキストの複雑さやユーザーの認知状態を捉えきれていません。このギャップを埋めるために、LifeSimを提案します。LifeSimは、物理環境内でBelief-Desire-Intention(BDI)モデルを用いてユーザーの認知をモデル化し、整合的なライフ・トラジェクトリを生成し、意図駆動のユーザー対話行動をシミュレートするユーザーシミュレータです。LifeSimを基に、LifeSim-Evalを導入します。LifeSim-Evalは、マルチシナリオ・長期的なパーソナライズ支援のための包括的なベンチマークです。LifeSim-Evalは8つのライフ領域と1,200の多様なシナリオを網羅し、複数ターンの対話的手法を採用して、モデルが明示的および暗黙的な意図を満たし、ユーザープロファイルを回復し、高品質な応答を生成する能力を評価します。単一シナリオおよび長期的な設定の下で、私たちの実験は、現在のLLMが暗黙の意図の理解と長期的なユーザー嗜好のモデリングを扱う上で重大な制約を抱えていることを示しています。