AI Navigate

AI Psychometrics: 心理測定学的妥当性を用いた大規模言語モデルの心理的推論の評価

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • AI Psychometricsは心理測定学的妥当性の枠組みを適用して大規模言語モデルの心理的推論を評価し、体系的な評価アプローチを提案します。
  • 本研究はGPT-3.5、GPT-4、LLaMA-2、LLaMA-3をTechnology Acceptance Model(TAM)を用いて、収束的妥当性、識別的妥当性、予測的妥当性、および外部妥当性を検証します。
  • 4つのモデルはいずれも妥当性基準を満たし、GPT-4とLLaMA-3はGPT-3.5およびLLaMA-2より高い心理測定学的妥当性を示しました。
  • 本結果は、LLMを解釈するためにAI Psychometricsを適用する有効性と、モデル間で心理的特徴を横断比較することを可能にすることを支持します。
  • 本研究は、モデルの性能と心理測定的妥当性を結びつけることでAI評価方法論に貢献し、モデル評価の新たな方向性を示唆します。
要旨:パラメータ数の膨大さと深層ニューラルネットワークは、大規模言語モデル(LLMs)を人間の脳の複雑さに匹敵させ、同時にそれらを評価・解釈が困難なブラックボックス系のシステムにします。AI Psychometricsは、心理測定学的方法を適用してAIシステムの心理的特性とプロセスを評価・解釈することを目的とした新興分野です。本論文は、AI Psychometricsの適用を用いて、GPT-3.5、GPT-4、LLaMA-2、LLaMA-3の心理的推論と全体的な心理測定妥当性を評価します。Technology Acceptance Model(TAM)を用いて、これらのモデルにおける収束的、識別的、予測的、外部妥当性を検討しました。我々の知見は、これらすべてのモデルの応答が概ねすべての妥当性基準を満たしていることを示しています。さらに、GPT-4およびLLaMA-3のような高性能モデルは、前任のGPT-3.5およびLLaMA-2と比較して一貫してより高い心理測定学的妥当性を示しました。これらの結果は、AI Psychometricsを適用して大規模言語モデルを評価・解釈することの妥当性を確立するのに役立ちます。