LLMによる予測スコアリングと検証：非構造化テキストから経験評価（体験評価）を推定する

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この研究では、GPT-4.1が、構造化された設問情報を使わずに、MLBファンの自由記述テキスト1件のみから体験の総合的な0〜10評価を推定しました。
約1万件の回答（5つのMLBチーム）で、AIが予測した評価の67%は調査（自己申告）評価との差が±1以内で、36%は完全一致でした。
予測は3回の独立した採点実行でも非常に高い一貫性を示した一方（完全一致87%、±1以内99.9%）、自己申告より平均で約1点低くなる体系的なズレがありました。
モデルの推定は、駐車や売店・飲食、スタッフなど個別要素よりも、ファンの「総合的な評価判断」と最も強く整合（相関r=0.82）していました。
著者らは、予測スコアと自己申告スコアの差は「意味のある構成の違い」を反映しており（全体の評決 vs. 記憶に残る・感情的に強い・珍しい等の出来事の影響）、誤差として消すのではなく維持する価値があると論じています。

LangChain Releases

Dev.to

Dev.to

Dev.to

Dev.to