概要: 人工知能における重要な課題は、LLMが人間の認知をシミュレートできるのか、それとも表層的な振る舞いを単に模倣するだけなのか、という点である。しかし既存のデータセットは、合成された推論の痕跡、あるいは母集団レベルの集約のいずれかに偏っており、真に個人の認知パターンを捉えきれていない。そこで本研究では、人工知能の多様な領域にまたがる217人の研究者に関する縦断的な研究履歴に基づくベンチマークを導入する。各著者の学術出版物は、それぞれの認知プロセスの外在化された表現として機能する。LLMが認知パターンを転移しているのか、それとも単に振る舞いを模倣しているのかを区別するため、我々のベンチマークでは、意図的に領域をまたいだ時系列シフトによる汎化設定を用いる。さらに、個人レベルでの認知的一貫性を評価するための多次元の認知整合指標も提案する。最先端のLLMおよびさまざまな強化手法を体系的に評価することで、次の問いに関する第一段階の実証的研究を提示する: (1)現在のLLMは人間の認知をどれほどよくシミュレートできているのか?(2)既存の手法は、これらの能力をどこまで向上させうるのか?
大規模言語モデルは、行動の模倣を超えて人間の認知をシミュレートできるのか?
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルが観測可能な行動を模倣するだけでなく、人間の認知の側面をシミュレートできるかどうかを検証する。合成トレースや集計した集団データに依存した既存データセットの限界にも取り組む。
- 217人のAI研究者の縦断的な出版履歴に基づくベンチマークを導入し、それぞれの著者の研究を、個々の認知プロセスの外部的な代理(プロキシ)として扱う。
- LLMが認知パターンを転移できるかを確かめるため、ベンチマークでは標準的な同一領域内評価ではなく、領域をまたぐ時間的シフトに基づく汎化設定を用いる。
- 著者らは、個人レベルの認知的一貫性を測る多次元の認知アラインメント指標を提案し、最先端のLLMに加えて強化手法を用いた体系的な評価を実施する。
- 本研究は、現在のLLMが人間の認知をどの程度までシミュレートできるのか、また既存手法によってその能力がどれほど改善され得るのか、という問いに対する最初の実証的ステップとして位置づけられる。


