[R] 内部トランスフォーマー信号は生成の正確性を予測する: 4モデルと2つのベンチマークにまたがる14,540トレースの実証研究

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

本研究は、4モデルと2つのベンチマークにまたがる内部トランスフォーマー信号を用いて生成の正確性を予測する。Pass@k=10を温度0.7および0.8で実施し、トレーニングとテストの折り畳み間のプロンプト漏洩を防ぐため、グループ化クロスバリデーションを用いた。
合計14,540件のトレースのうち、形式エラーを除外した後、正確性分析には11,403件が使用され、評価指標はAUROCであり、HistGradientBoosting分類器とStratifiedGroupKFoldを用いた。
結果は、最も情報量の多い信号階層はモデル/タスクに依存することを示す。Qwen-HumanEvalでは初期ウィンドウの特徴が優位な改善をもたらす（T4）、一方、Mistral-GSM8Kでは全特徴セットが従来の階層より性能を低下させる場合がある。
最初の10個の生成トークンに対する早期ウィンドウの平均サプライザルは、Mixtral-HumanEvalで0.80、Mistral-HumanEvalで0.73の予測AUROCをもたらし、この信号で上位10候補をランク付けすることは正確性予測を大幅に改善する。
信頼度の較正は、高信頼度の出力でも依然として強いAUROCを示す（例：Qwen-HumanEvalで0.92）ことを示しており、最も自信のあるケースでも内部信号の頑健性が確認できる。

実験設計

モデル: Llama-3.1-8B-Instruct, Qwen-2.5-7B-Instruct, Mistral-7B-Instruct-v0.3, Mixtral-8x7B-Instruct-v0.1
ベンチマーク: GSM8K (200 prompts), HumanEval (164 prompts)
設計: Pass@k, k=10 per prompt (5 runs at temperature 0.7, 5 at 0.8), each graded independently
評価: ID での5分割CVをグループ化 — トレインとテストのいずれにも同一プロンプトは現れない
スケール: 合計 14,540 トレース; 11,403 を正解性分析に使用、形式の不具合を除外した後
分類器: StratifiedGroupKFold を用いた HistGradientBoosting
指標: AUROC

この実験の以前のバージョンでは貪欲デコードを使用しており、各プロンプトごとに出力が同一で、プロンプト内のばらつきがゼロでした。その設計はこの問題には本質的に不適切であり、最初からやり直して再設計しました。

結果

信号アブレーション（T1–T6）:

エントロピーのみ（T1、1特徴量）から完全な特徴量セット（T6、104特徴量）まで、グループ化CVの下で階層的アブレーション:


モデル	データセット	T6 AUROC
Qwen-2.5-7B	HumanEval	0.90
Mixtral-8x7B	HumanEval	0.82
Mistral-7B	HumanEval	0.77
Mistral-7B	GSM8K	0.67
Llama-3.1-8B	GSM8K	0.64
Qwen-2.5-7B	GSM8K	0.60

どの階層が最大の改善をもたらすかは、モデル/タスクによって異なります。Qwen/HumanEval の場合、T4（初期ウィンドウ特徴量）が支配的な跳躍をもたらします（0.73 → 0.85）。Mistral/GSM8K の場合、T6 は T5 を下回り、全特徴量セットの追加が悪化します。

初期ウィンドウ信号:

最初の10個の生成トークンに対する平均サプライザル値は、Mixtral/HumanEval で 0.80、Mistral/HumanEval で 0.73 の予測力を達成します。この単一信号で候補を k=10 個でランク付けします:

Mixtral/HumanEval: 15%（ランダム）→ 50%（+35 pp）
Mistral/HumanEval: 16%→ 48%（+32 pp）
Qwen/HumanEval: 31%→ 56%（+25 pp）

信頼性の較正:

上位 k マージンで最も自信のある五分位における正確度: Mixtral 2.8%、Mistral 6.4%、Qwen 20.4%、Llama 33.5%。高信頼度サブセット内では、内部信号は依然として 0.92 AUROC（Qwen/HumanEval、compound_density_per_100t）を達成します。出力信頼度と内部状態信号は直交情報を伝えるようです。

アーキテクチャ依存:

MoE と全結合モデルは、内部信号分布が根本的に異なります。collapsed_rate_mean は Mixtral を3つの全結合モデルから rank-biserial −0.899 の位置で分離します。複合リスクスコアのモデル間整合はほぼ0または負です（GSM8K におけるモデルペア間で Spearman ρ は −0.16 から +0.07 の範囲）。アーキテクチャ別のキャリブレーションが必要と見られ、普遍的な複合スコアは転送されません。

形式不良:

GSM8K の形式不良率（#### 区切りが欠落）: Mistral 72.2%、Mixtral 62.1%、Llama 17.9%、Qwen 4.5%。内部信号は Mistral の形式不良を予測力 0.88（hidden_max_abs_last_layer_mean）で、Mixtral を 0.83（focused_head_mean_zscore）で予測します。

層分析:

アテンションエントロピーと L2 ノルムの層ごとの正確性との相関は、層ごとの特異性を示します。Qwen の第2層のアテンションエントロピーは HumanEval の正確性と r = −0.484（p ≈ 10⁻⁹⁷）で相関します。ピークとなる層はモデルとタスクによって大きく異なり、普遍的な正確性層は特定されていません。

否定的な結果

組み込みの複合リスクスコアは、Mistral/Mixtral のトレースの 94–96% で 1.0 に飽和します。ECE は Platt スケーリング前で 0.24–0.70 の範囲。複合スコアの AUROC は、いくつかのセルでほぼ偶然レベルです。実験全体を通じて追跡された 25 要素のフィンガープリントベクトルは、既存の要約統計の連結であることが判明し、独立した予測情報はありませんでした。特徴量セット（104 特徴量）は |r| > 0.80 の約 47 の相関ファミリに崩壊します。選択された約 15 の代表値がほとんどの予測情報を保持します。

データとコード

完全な実験（スクリプト、トレース、分析出力、キャリブレーション結果）: 実験ディレクトリ, 検証レポート

提出者 /u/Ok_Exercise_7895
[リンク] [コメント]

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

[R] 内部トランスフォーマー信号は生成の正確性を予測する: 4モデルと2つのベンチマークにまたがる14,540トレースの実証研究

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？