要旨: これまでの研究では、大規模言語モデルにおける評価意識の証拠として、ベンチマークプロンプトに対して線形プローブを用いています。評価コンテキストは通常、ベンチマーク形式とジャンルと絡み合っているため、プローブベースの信号がコンテキストを反映しているのか、それとも表層構造を反映しているのかは不明です。これらの信号が、プロンプト形式を部分的に制御した下で持続するかどうかを、制御された2×2データセットと診断的リライトを用いて検証します。私たちは、プローブが主にベンチマークの標準的な構造を追跡し、言語スタイルとは独立した自由形式のプロンプトへ一般化することに失敗することを見出しました。したがって、標準的なプローブベースの方法論は、評価コンテキストを構造的アーティファクトから信頼性高く分離することができず、既存の結果の証拠力を制限します。
返却形式: {"translated": "翻訳されたHTML"}
