AlpsBench:実会話の記憶保持と嗜好アライメントのためのLLMパーソナライズ評価ベンチマーク
arXiv cs.AI / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- AlpsBenchは、合成対話データではなく、現実の人間—LLM対話を反映することを目的とした、LLMパーソナライズのゴールドスタンダードな評価ベンチマークとして提案される。
- このベンチマークには、WildChatに由来する2,500の長期的な相互作用シーケンスに加え、明示的および暗黙的なパーソナライゼーションのシグナルを捉える、人手で検証された構造化メモリが含まれる。
- 情報抽出、更新、検索、利用の4つのタスクから成る、メモリ管理のライフサイクル全体を定義し、エンドツーエンドの性能に関する評価プロトコルも提示する。
- 最先端LLMおよびメモリ中心のシステムに関する実験では、潜在的なユーザ特性の抽出における継続的な弱点、メモリ更新性能の天井、そして大規模なディストラクタ集合による検索劣化が示される。
- 本研究では、明示的なメモリ機構を追加すると想起は改善し得るものの、それが自動的に嗜好に整合した、あるいは情緒的に共鳴する応答につながるわけではないことが分かる。



