AI Navigate

[R] 内部トランスフォーマー信号は生成の正確性を予測する: 4モデルと2つのベンチマークにまたがる14,540トレースの実証研究

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • 本研究は、4モデルと2つのベンチマークにまたがる内部トランスフォーマー信号を用いて生成の正確性を予測する。Pass@k=10を温度0.7および0.8で実施し、トレーニングとテストの折り畳み間のプロンプト漏洩を防ぐため、グループ化クロスバリデーションを用いた。
  • 合計14,540件のトレースのうち、形式エラーを除外した後、正確性分析には11,403件が使用され、評価指標はAUROCであり、HistGradientBoosting分類器とStratifiedGroupKFoldを用いた。
  • 結果は、最も情報量の多い信号階層はモデル/タスクに依存することを示す。Qwen-HumanEvalでは初期ウィンドウの特徴が優位な改善をもたらす(T4)、一方、Mistral-GSM8Kでは全特徴セットが従来の階層より性能を低下させる場合がある。
  • 最初の10個の生成トークンに対する早期ウィンドウの平均サプライザルは、Mixtral-HumanEvalで0.80、Mistral-HumanEvalで0.73の予測AUROCをもたらし、この信号で上位10候補をランク付けすることは正確性予測を大幅に改善する。
  • 信頼度の較正は、高信頼度の出力でも依然として強いAUROCを示す(例:Qwen-HumanEvalで0.92)ことを示しており、最も自信のあるケースでも内部信号の頑健性が確認できる。

実験設計

  • モデル: Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, Mistral-7B-Instruct-v0.3, Mixtral-8x7B-Instruct-v0.1
  • ベンチマーク: GSM8K (200 prompts), HumanEval (164 prompts)
  • 設計: Pass@k, k=10 per prompt (5 runs at temperature 0.7, 5 at 0.8), each graded independently
  • 評価: ID での5分割CVをグループ化 — トレインとテストのいずれにも同一プロンプトは現れない
  • スケール: 合計 14,540 トレース; 11,403 を正解性分析に使用、形式の不具合を除外した後
  • 分類器: StratifiedGroupKFold を用いた HistGradientBoosting
  • 指標: AUROC

この実験の以前のバージョンでは貪欲デコードを使用しており、各プロンプトごとに出力が同一で、プロンプト内のばらつきがゼロでした。その設計はこの問題には本質的に不適切であり、最初からやり直して再設計しました。

結果

信号アブレーション(T1–T6):

エントロピーのみ(T1、1特徴量)から完全な特徴量セット(T6、104特徴量)まで、グループ化CVの下で階層的アブレーション:

モデル データセット T6 AUROC
Qwen-2.5-7B HumanEval 0.90
Mixtral-8x7B HumanEval 0.82
Mistral-7B HumanEval 0.77
Mistral-7B GSM8K 0.67
Llama-3.1-8B GSM8K 0.64
Qwen-2.5-7B GSM8K 0.60

どの階層が最大の改善をもたらすかは、モデル/タスクによって異なります。Qwen/HumanEval の場合、T4(初期ウィンドウ特徴量)が支配的な跳躍をもたらします(0.73 → 0.85)。Mistral/GSM8K の場合、T6 は T5 を下回り、全特徴量セットの追加が悪化します。

初期ウィンドウ信号:

最初の10個の生成トークンに対する平均サプライザル値は、Mixtral/HumanEval で 0.80、Mistral/HumanEval で 0.73 の予測力を達成します。この単一信号で候補を k=10 個でランク付けします:

  • Mixtral/HumanEval: 15%(ランダム)→ 50%(+35 pp)
  • Mistral/HumanEval: 16%→ 48%(+32 pp)
  • Qwen/HumanEval: 31%→ 56%(+25 pp)

信頼性の較正:

上位 k マージンで最も自信のある五分位における正確度: Mixtral 2.8%、Mistral 6.4%、Qwen 20.4%、Llama 33.5%。高信頼度サブセット内では、内部信号は依然として 0.92 AUROC(Qwen/HumanEval、compound_density_per_100t)を達成します。出力信頼度と内部状態信号は直交情報を伝えるようです。

アーキテクチャ依存:

MoE と全結合モデルは、内部信号分布が根本的に異なります。collapsed_rate_mean は Mixtral を3つの全結合モデルから rank-biserial −0.899 の位置で分離します。複合リスクスコアのモデル間整合はほぼ0または負です(GSM8K におけるモデルペア間で Spearman ρ は −0.16 から +0.07 の範囲)。アーキテクチャ別のキャリブレーションが必要と見られ、普遍的な複合スコアは転送されません。

形式不良:

GSM8K の形式不良率(#### 区切りが欠落): Mistral 72.2%、Mixtral 62.1%、Llama 17.9%、Qwen 4.5%。内部信号は Mistral の形式不良を予測力 0.88(hidden_max_abs_last_layer_mean)で、Mixtral を 0.83(focused_head_mean_zscore)で予測します。

層分析:

アテンションエントロピーと L2 ノルムの層ごとの正確性との相関は、層ごとの特異性を示します。Qwen の第2層のアテンションエントロピーは HumanEval の正確性と r = −0.484(p ≈ 10⁻⁹⁷)で相関します。ピークとなる層はモデルとタスクによって大きく異なり、普遍的な正確性層は特定されていません。

否定的な結果

組み込みの複合リスクスコアは、Mistral/Mixtral のトレースの 94–96% で 1.0 に飽和します。ECE は Platt スケーリング前で 0.24–0.70 の範囲。複合スコアの AUROC は、いくつかのセルでほぼ偶然レベルです。実験全体を通じて追跡された 25 要素のフィンガープリントベクトルは、既存の要約統計の連結であることが判明し、独立した予測情報はありませんでした。特徴量セット(104 特徴量)は |r| > 0.80 の約 47 の相関ファミリに崩壊します。選択された約 15 の代表値がほとんどの予測情報を保持します。

データとコード

完全な実験(スクリプト、トレース、分析出力、キャリブレーション結果): 実験ディレクトリ, 検証レポート

提出者 /u/Ok_Exercise_7895
[リンク] [コメント]