現実世界の人間行動シミュレーションに向けて:長期ホライズン・複数シナリオ・異種の行動トレースで大規模言語モデルをベンチマークする
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- OmniBehavior が導入される。これは、実世界のデータのみから構築されたユーザー・シミュレーションのベンチマークであり、長期ホライズン、複数シナリオ、異種の人間行動トレースを統一的な枠組みで扱えるよう設計されている。
- 著者らは、孤立したシナリオを用いた従来のベンチマークが「トンネル視(tunnel vision)」を生みうることを論じ、実証的な根拠を提示する。真に即した意思決定には、長期にわたる複数シナリオ間の因果的な連鎖が必要だと主張している。
- 最先端の LLM を対象にした評価では、これらのモデルが複雑な現実世界の行動をシミュレートすることに苦戦しており、文脈ウィンドウのサイズを増やしても性能が頭打ちになることが示される。
- シミュレーションされた行動と真正の行動を比較することで、LLM シミュレーションには構造的なバイアスがあることが特定される。具体的には、「平均的なポジティブな人」への収束、過剰な活動(hyper-activity)、パーソナの均質化、個人差やロングテールな行動を損なうユートピア的バイアスなどが含まれる。
- 本論文は、現在の LLM の能力やベンチマーク設計を超えて、より高精細な人間行動シミュレーションを改善するための主要な研究方向性を示している。




