シグナルは上限:LLMが予測するオープン回答サーベイの体験評価の測定限界

arXiv cs.CL / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、オープン回答のMLBサーベイ文からLLMでファンの体験評価をどこまで予測できるかを検証し、先行研究でのGPT 4.1の基準性能(±1以内の一致率が約67%)を踏まえて評価を拡張しました。
  • 5球団の約1万件のサーベイを用い、控えめなプロンプトカスタマイズによりGPT 4.1の精度はわずかに改善しました(67%から約69%へ)が、モデルを入れ替えると(GPT 4.1-miniやGPT 5.2)概して精度が低下しました。
  • 精度に最も大きく影響したのはプロンプトやモデル選択ではなく、入力文の言語的な性質が精度を左右する度合いであり、これが工学的なレバーの影響を1桁以上上回ったと報告されています。
  • 論文は「上限(ceiling)」が2つの要素から成ると主張します。1つはモデルがテキストを読む際のバイアスで、プロンプト設計で部分的に補正できますが、もう1つはファンが書く内容と実際に意思決定する内容のギャップであり、テキストに欠けた情報があるため工学では埋められません。
  • 結果として、プロンプトエンジニアリングは“少しだけ効く”というより、テキスト解釈に由来する誤差のうち到達可能な部分に対して、特定のかつ予測可能な効果をもたらすにとどまることが示されました。

要旨: 先行論文(Hong, Potteiger, and Zapata 2026)では、最適化されていないGPT 4.1プロンプトが、自由記述の調査文からファンが報告した経験評価を1点以内で当てることが、67%の確率で可能であることが示されました。本論文では、その性能に対するプロンプト設計とモデル選択の相対的な影響を検証します。私たちは、5つのMLBチームから約10,000件の試合後アンケートを用いて、4つの構成を比較しました。つまり、元のベースライン・プロンプトと、適度にカスタマイズした版を用意し、それを3種類のGPTモデル(4.1、4.1-mini、5.2)と組み合わせました。プロンプトのカスタマイズによって、GPT 4.1における±1の一致率が約2パーセントポイント向上しました(67%から69%へ)。この最良の構成からのモデルの入れ替えはいずれも性能を低下させました。GPT 5.2はベースラインに戻り、GPT 4.1-miniはそれより6パーセントポイント下回りました。両方のレバーを組み合わせても、その効果は入力そのものに比べてはるかに小さかったです。対応可能な構成全体で、精度のばらつきは、プロンプトやモデルの選択よりも、テキストの言語的特徴によって10倍以上の大きさで変動していました。上限(天井)には2つの部分があります。1つは、モデルがテキストを読み取る際のバイアスであり、これはプロンプト設計で是正できます。もう1つは、ファンが書くことと、実際に彼らが決めることの違いであり、欠けている情報がテキストに存在しないため、どの工学的工夫でも埋められません。プロンプトのカスタマイズは前者を動かしましたが、モデル選択は確実にはどちらも動かしませんでした。その結果は、「プロンプト・エンジニアリングは少し役に立つ」ということではありません。プロンプト・エンジニアリングが助けになるのは、到達しうる上限のうち、特定かつ予測可能な部分に対してだけ、ということです。