AI Psychometrics: 心理測定学的妥当性を用いた大規模言語モデルの心理的推論の評価

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

AI Psychometricsは心理測定学的妥当性の枠組みを適用して大規模言語モデルの心理的推論を評価し、体系的な評価アプローチを提案します。
本研究はGPT-3.5、GPT-4、LLaMA-2、LLaMA-3をTechnology Acceptance Model（TAM）を用いて、収束的妥当性、識別的妥当性、予測的妥当性、および外部妥当性を検証します。
4つのモデルはいずれも妥当性基準を満たし、GPT-4とLLaMA-3はGPT-3.5およびLLaMA-2より高い心理測定学的妥当性を示しました。
本結果は、LLMを解釈するためにAI Psychometricsを適用する有効性と、モデル間で心理的特徴を横断比較することを可能にすることを支持します。
本研究は、モデルの性能と心理測定的妥当性を結びつけることでAI評価方法論に貢献し、モデル評価の新たな方向性を示唆します。

要旨：パラメータ数の膨大さと深層ニューラルネットワークは、大規模言語モデル（LLMs）を人間の脳の複雑さに匹敵させ、同時にそれらを評価・解釈が困難なブラックボックス系のシステムにします。AI Psychometricsは、心理測定学的方法を適用してAIシステムの心理的特性とプロセスを評価・解釈することを目的とした新興分野です。本論文は、AI Psychometricsの適用を用いて、GPT-3.5、GPT-4、LLaMA-2、LLaMA-3の心理的推論と全体的な心理測定妥当性を評価します。Technology Acceptance Model（TAM）を用いて、これらのモデルにおける収束的、識別的、予測的、外部妥当性を検討しました。我々の知見は、これらすべてのモデルの応答が概ねすべての妥当性基準を満たしていることを示しています。さらに、GPT-4およびLLaMA-3のような高性能モデルは、前任のGPT-3.5およびLLaMA-2と比較して一貫してより高い心理測定学的妥当性を示しました。これらの結果は、AI Psychometricsを適用して大規模言語モデルを評価・解釈することの妥当性を確立するのに役立ちます。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

AI Psychometrics: 心理測定学的妥当性を用いた大規模言語モデルの心理的推論の評価

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒