実験設計
- モデル: Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, Mistral-7B-Instruct-v0.3, Mixtral-8x7B-Instruct-v0.1
- ベンチマーク: GSM8K (200 prompts), HumanEval (164 prompts)
- 設計: Pass@k, k=10 per prompt (5 runs at temperature 0.7, 5 at 0.8), each graded independently
- 評価: ID での5分割CVをグループ化 — トレインとテストのいずれにも同一プロンプトは現れない
- スケール: 合計 14,540 トレース; 11,403 を正解性分析に使用、形式の不具合を除外した後
- 分類器: StratifiedGroupKFold を用いた HistGradientBoosting
- 指標: AUROC
この実験の以前のバージョンでは貪欲デコードを使用しており、各プロンプトごとに出力が同一で、プロンプト内のばらつきがゼロでした。その設計はこの問題には本質的に不適切であり、最初からやり直して再設計しました。
結果
信号アブレーション(T1–T6):
エントロピーのみ(T1、1特徴量)から完全な特徴量セット(T6、104特徴量)まで、グループ化CVの下で階層的アブレーション:
| モデル | データセット | T6 AUROC |
| Qwen-2.5-7B | HumanEval | 0.90 |
| Mixtral-8x7B | HumanEval | 0.82 |
| Mistral-7B | HumanEval | 0.77 |
| Mistral-7B | GSM8K | 0.67 |
| Llama-3.1-8B | GSM8K | 0.64 |
| Qwen-2.5-7B | GSM8K | 0.60 |
どの階層が最大の改善をもたらすかは、モデル/タスクによって異なります。Qwen/HumanEval の場合、T4(初期ウィンドウ特徴量)が支配的な跳躍をもたらします(0.73 → 0.85)。Mistral/GSM8K の場合、T6 は T5 を下回り、全特徴量セットの追加が悪化します。
初期ウィンドウ信号:
最初の10個の生成トークンに対する平均サプライザル値は、Mixtral/HumanEval で 0.80、Mistral/HumanEval で 0.73 の予測力を達成します。この単一信号で候補を k=10 個でランク付けします:
- Mixtral/HumanEval: 15%(ランダム)→ 50%(+35 pp)
- Mistral/HumanEval: 16%→ 48%(+32 pp)
- Qwen/HumanEval: 31%→ 56%(+25 pp)
信頼性の較正:
上位 k マージンで最も自信のある五分位における正確度: Mixtral 2.8%、Mistral 6.4%、Qwen 20.4%、Llama 33.5%。高信頼度サブセット内では、内部信号は依然として 0.92 AUROC(Qwen/HumanEval、compound_density_per_100t)を達成します。出力信頼度と内部状態信号は直交情報を伝えるようです。
アーキテクチャ依存:
MoE と全結合モデルは、内部信号分布が根本的に異なります。collapsed_rate_mean は Mixtral を3つの全結合モデルから rank-biserial −0.899 の位置で分離します。複合リスクスコアのモデル間整合はほぼ0または負です(GSM8K におけるモデルペア間で Spearman ρ は −0.16 から +0.07 の範囲)。アーキテクチャ別のキャリブレーションが必要と見られ、普遍的な複合スコアは転送されません。
形式不良:
GSM8K の形式不良率(#### 区切りが欠落): Mistral 72.2%、Mixtral 62.1%、Llama 17.9%、Qwen 4.5%。内部信号は Mistral の形式不良を予測力 0.88(hidden_max_abs_last_layer_mean)で、Mixtral を 0.83(focused_head_mean_zscore)で予測します。
層分析:
アテンションエントロピーと L2 ノルムの層ごとの正確性との相関は、層ごとの特異性を示します。Qwen の第2層のアテンションエントロピーは HumanEval の正確性と r = −0.484(p ≈ 10⁻⁹⁷)で相関します。ピークとなる層はモデルとタスクによって大きく異なり、普遍的な正確性層は特定されていません。
否定的な結果
組み込みの複合リスクスコアは、Mistral/Mixtral のトレースの 94–96% で 1.0 に飽和します。ECE は Platt スケーリング前で 0.24–0.70 の範囲。複合スコアの AUROC は、いくつかのセルでほぼ偶然レベルです。実験全体を通じて追跡された 25 要素のフィンガープリントベクトルは、既存の要約統計の連結であることが判明し、独立した予測情報はありませんでした。特徴量セット(104 特徴量)は |r| > 0.80 の約 47 の相関ファミリに崩壊します。選択された約 15 の代表値がほとんどの予測情報を保持します。
データとコード
[リンク] [コメント]


