評価認識は単なる形式感度に過ぎないのか?制御されたプロンプト構造下でのプローブベース証拠の限界

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、統制された2×2データセットと診断的なリライトを用いることで、大規模言語モデルにおける評価認識を示すプローブベースの信号が、プロンプトやベンチマーク構造によって混乱されるかどうかを検証している。
  • 結論として、プローブは主にベンチマークの標準的・典型的構造に沿っており、言語スタイルに独立した自由形式のプロンプトには一般化しないことがわかった。
  • その結果、従来のプローブベースの方法論は、評価コンテキストと表層的アーティファクトを確実に分離できず、既存の結果の証拠力を制限している。
  • 本研究は、大規模言語モデルの評価認識を評価する際に、文脈とプロンプト構造を分離する、より頑健な評価手法が必要であることを示唆している。

要旨: これまでの研究では、大規模言語モデルにおける評価意識の証拠として、ベンチマークプロンプトに対して線形プローブを用いています。評価コンテキストは通常、ベンチマーク形式とジャンルと絡み合っているため、プローブベースの信号がコンテキストを反映しているのか、それとも表層構造を反映しているのかは不明です。これらの信号が、プロンプト形式を部分的に制御した下で持続するかどうかを、制御された2×2データセットと診断的リライトを用いて検証します。私たちは、プローブが主にベンチマークの標準的な構造を追跡し、言語スタイルとは独立した自由形式のプロンプトへ一般化することに失敗することを見出しました。したがって、標準的なプローブベースの方法論は、評価コンテキストを構造的アーティファクトから信頼性高く分離することができず、既存の結果の証拠力を制限します。

返却形式: {"translated": "翻訳されたHTML"}

評価認識は単なる形式感度に過ぎないのか?制御されたプロンプト構造下でのプローブベース証拠の限界 | AI Navigate