LLMによる予測スコアリングと検証:非構造化テキストから経験評価(体験評価)を推定する

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究では、GPT-4.1が、構造化された設問情報を使わずに、MLBファンの自由記述テキスト1件のみから体験の総合的な0〜10評価を推定しました。
  • 約1万件の回答(5つのMLBチーム)で、AIが予測した評価の67%は調査(自己申告)評価との差が±1以内で、36%は完全一致でした。
  • 予測は3回の独立した採点実行でも非常に高い一貫性を示した一方(完全一致87%、±1以内99.9%)、自己申告より平均で約1点低くなる体系的なズレがありました。
  • モデルの推定は、駐車や売店・飲食、スタッフなど個別要素よりも、ファンの「総合的な評価判断」と最も強く整合(相関r=0.82)していました。
  • 著者らは、予測スコアと自己申告スコアの差は「意味のある構成の違い」を反映しており(全体の評決 vs. 記憶に残る・感情的に強い・珍しい等の出来事の影響)、誤差として消すのではなく維持する価値があると論じています。