HorizonBench：変化する嗜好による長期ホライズン・パーソナライゼーション

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

ユーザーの嗜好は数か月にわたって変化し、その変更が「その後のライフイベント」によって起きたかを推定して追跡する必要がある、という課題を「長期ホライズン・パーソナライゼーション」として定義しています。
従来のデータ資源が「自然な長期インタラクション」と「なぜモデルが失敗したのかを診断できる根拠（ground-truth provenance）」の両方を備えていない点を埋めるため、HorizonBenchを提案しています。
HorizonBenchは、構造化されたメンタルステートグラフに基づくデータ生成器によって構築され、6か月分の会話履歴と、各嗜好変更の正解の根拠を提供します。
ベンチマークは4,245アイテム（360人のシミュレートユーザー）で構成され、各履歴は平均約4,300ターン・約163Kトークンです。
25の最先端モデルを評価すると成績が低く、最高でも52.8%にとどまり、多くは20%の偶然基準以下であり、誤りの多くは更新されたユーザーステートを追跡できず、元の自己申告の値を選んでしまう「信念更新（状態追跡）失敗」に起因することが示されています。

arXiv:2604.17283v1 Announce Type: new
Abstract: ユーザの嗜好は、数か月にわたるやり取りの中で変化し、その追跡には、述べられた嗜好が、その後の人生の出来事によって変更されたのがいつかを推論する必要がある。私たちはこの問題を長期ホライゾン・パーソナライゼーションと定義し、それに対する進展が、データの利用可能性と計測によって制限されていることを観察した。自然主義的な長期ホライゾンのやり取りと、モデルが失敗する理由を診断するために必要な真のプロベナンス（出所情報）の両方を提供する既存のリソースは存在しない。私たちは、構造化された心的状態グラフから会話を生成するデータジェネレータを導入する。これにより、6か月のタイムラインにわたるあらゆる嗜好の変化について真のプロベナンスを得られ、そこから、6か月の会話履歴を持つ360人のシミュレートされたユーザによる4,245件のベンチマークであるHorizonBenchを構築する。会話履歴は平均で約4,300ターン、約163Kトークンである。HorizonBenchは、長いコンテキストのモデリング、メモリ拡張アーキテクチャ、心の理論（theory-of-mind）推論、ユーザモデリングのためのテストベッドを提供する。25の最先端モデルにおいて、最良のモデルは52.8%に到達し、ほとんどのモデルは20%の偶然基準以下である。これらのモデルが進化した嗜好に誤るとき、3分の1以上の確率で、更新されたユーザ状態を追跡せずに、ユーザが当初述べた値を選択してしまう。この信念更新の失敗は、コンテキスト長および表現の明示性の水準をまたいでも持続し、長期ホライゾン・パーソナライゼーションにおける主要なボトルネックが状態追跡能力であることを明らかにする。