現実世界の人間行動シミュレーションに向けて:長期ホライズン・複数シナリオ・異種の行動トレースで大規模言語モデルをベンチマークする

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • OmniBehavior が導入される。これは、実世界のデータのみから構築されたユーザー・シミュレーションのベンチマークであり、長期ホライズン、複数シナリオ、異種の人間行動トレースを統一的な枠組みで扱えるよう設計されている。
  • 著者らは、孤立したシナリオを用いた従来のベンチマークが「トンネル視(tunnel vision)」を生みうることを論じ、実証的な根拠を提示する。真に即した意思決定には、長期にわたる複数シナリオ間の因果的な連鎖が必要だと主張している。
  • 最先端の LLM を対象にした評価では、これらのモデルが複雑な現実世界の行動をシミュレートすることに苦戦しており、文脈ウィンドウのサイズを増やしても性能が頭打ちになることが示される。
  • シミュレーションされた行動と真正の行動を比較することで、LLM シミュレーションには構造的なバイアスがあることが特定される。具体的には、「平均的なポジティブな人」への収束、過剰な活動(hyper-activity)、パーソナの均質化、個人差やロングテールな行動を損なうユートピア的バイアスなどが含まれる。
  • 本論文は、現在の LLM の能力やベンチマーク設計を超えて、より高精細な人間行動シミュレーションを改善するための主要な研究方向性を示している。

Abstract

大規模言語モデル(LLM)の登場により、汎用的なユーザーシミュレータの可能性が明らかになってきました。しかし、既存のベンチマークは、孤立したシナリオ、狭い行動空間、または合成データに限定されたままであり、本物の人間の振る舞いがもつ全体的な性質を捉えられていません。そこで、このギャップを埋めるために、OmniBehaviorを導入します。OmniBehaviorは、実世界のデータだけから構築された初のユーザーシミュレーション用ベンチマークであり、長期ホライズン、シナリオを跨いだ振る舞い、そして異種混在の行動パターンを、統一された枠組みに統合します。このベンチマークに基づき、まず、孤立したシナリオを含む従来のデータセットはトンネルビジョン(近視眼)に陥る一方で、実世界の意思決定は長期にわたるシナリオ横断の因果連鎖に依存していることを、実証的な根拠として示します。最先端のLLMに対する広範な評価の結果、現在のモデルはこれらの複雑な振る舞いを正確にシミュレートするのが難しく、コンテキストウィンドウを拡大しても性能が頭打ちになることが明らかになりました。決定的なのは、シミュレートされた振る舞いと真正の振る舞いを体系的に比較することで、根本的な構造的バイアスが見いだされる点です。すなわち、LLMは平均的な「好ましい人物」に収束する傾向があり、高活動性(過剰な活発さ)、パーソナの同質化、そしてユートピア的バイアスを示します。その結果、個人差やロングテールの振る舞いが失われてしまい、高精度なシミュレーション研究に向けた重要な今後の方向性が浮き彫りになります。