LifeSim: パーソナライズされたアシスタント評価のための長期的なユーザーライフシミュレータ

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

LifeSimは、Belief-Desire-Intention（BDI）フレームワークを用いて物理環境内でユーザーの認知をモデル化し、整合性のある長期的ライフ・トラジェクトリと意図駆動の相互作用を生成するユーザーシミュレータを導入します。
LifeSim-Evalを提案します。8つの生活領域と1,200のシナリオを網羅する包括的なベンチマークで、複数ターンの対話を用いて、明示的・暗黙的な意図を満たす能力、ユーザープロファイルの回復、質の高い応答の提供を評価します。
実験の結果、現行の大規模言語モデルは、暗黙の意図の理解と長期的なユーザー嗜好のモデリングの両方において、単一シナリオおよび長期的設定のいずれでも著しく困難を示します。
本研究は、評価を現実世界のユーザーとアシスタントの対話により適合させることを目指しており、パーソナライズされたAIアシスタントの今後の研究開発を導く可能性があります。

本文: arXiv:2603.12152v1 アナウンス種別: 新着要旨: 大規模言語モデル（LLMs）の急速な進展は、普遍的なAIアシスタントに向けた進歩を加速させています。しかし、パーソナライズされたアシスタントのための既存のベンチマークは、現実世界のユーザー-アシスタントの相互作用と一致しておらず、外部コンテキストの複雑さやユーザーの認知状態を捉えきれていません。このギャップを埋めるために、LifeSimを提案します。LifeSimは、物理環境内でBelief-Desire-Intention（BDI）モデルを用いてユーザーの認知をモデル化し、整合的なライフ・トラジェクトリを生成し、意図駆動のユーザー対話行動をシミュレートするユーザーシミュレータです。LifeSimを基に、LifeSim-Evalを導入します。LifeSim-Evalは、マルチシナリオ・長期的なパーソナライズ支援のための包括的なベンチマークです。LifeSim-Evalは8つのライフ領域と1,200の多様なシナリオを網羅し、複数ターンの対話的手法を採用して、モデルが明示的および暗黙的な意図を満たし、ユーザープロファイルを回復し、高品質な応答を生成する能力を評価します。単一シナリオおよび長期的な設定の下で、私たちの実験は、現在のLLMが暗黙の意図の理解と長期的なユーザー嗜好のモデリングを扱う上で重大な制約を抱えていることを示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

LifeSim: パーソナライズされたアシスタント評価のための長期的なユーザーライフシミュレータ

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer