概要: 私たちは、4段階の全MIT蒸留パイプラインを通じて、小型言語モデル(有効パラメータ 0.6B〜2.3B)に行動上の素養(自己検証、不確実性の受け入れ、フィードバック統合)を訓練することを目的とし、その後、推論時のアテンションヘッド介入および、凍結ベースの自信ゲート付きサイドカーに関する追試実験を行いました。内部ドラフトでは、Qwen3-0.6B の学生モデルで MCAS が +33.9 ポイント、HumanEval が +15.3 ポイントの向上が報告されましたが、出版前の2回目の妥当性確認で両方の数値が否定されました。HumanEval のデルタは(n_predict=512 の設定による)切り詰めアーティファクトであり、n_predict=1024 では -8.0 ポイントへ反転しました。MCAS の向上は、公平な比較(apples-to-apples)の採点では消失しました。この否定的結果は、その後の3つの連鎖的な進展につながりました。具体的には、(1) 3つのモデルファミリと2つのドメインに対するSFT/DPO LoRA、(2) o_proj に対する推論時アテンションヘッドの温度調整(tempering)、(3) 学習なしの凍結ベース側カーが最終トークンの隠れ状態 h_last を読み取る、という3つです。これらの結果から、判断(judge)によって測定される素養を、内容を損なうことなく、また様式的な模倣へ崩壊することなく動かす演算子は見つかりませんでした。失敗は、5つのモデルすべて(Qwen3-0.6B、Qwen3-1.7B、Qwen3.5-0.8B、Gemma 4 E2B、SmolLM2-1.7B-Instruct)で一貫しています。分布内のクロスバリデーション(AUC=0.683)は、新しいプロンプトでは偶然(チャンス)まで崩れ(AUC=0.516)、となりました。私たちは、機構を伴う3連続の否定的結果、線形 h_last プローブに対する2つの失敗モードの分類法、そして、私たち自身が生成した誤検出のクラスを、出版可能な否定的結果へ変換する誠実な否定(falsification)パイプラインを提供します。独立した知見として、Gemma 4 E2B は、Chef ドメインにおいて、ほぼ完全な「自信−正確性の分離」を示します(主張の非対称性 -0.009;モデルは正しさに関わらず 91% で主張します)。
小規模におけるディスポジション・ディスティレーション:三つのアークによる否定的結果
arXiv cs.AI / 2026/4/15
💬 オピニオンModels & Research
要点
- 本論文は、行動的ディスポジション(自己検証、不確実性の認識、フィードバック統合)を、小型言語モデル(0.6B〜2.3Bパラメータ)に蒸留することを試みる。手法は、オールMITの4段階ディスティレーション・パイプラインである。
- 当初の社内ドラフトでは大きな改善が報告されたが、後に実施した反証(falsification)チェックにより、両方の改善はアーティファクトであることが判明した(例:トランケーション設定によるHumanEvalの変化、または一貫したスコアリング下ではMCASが消失すること)。
- その後の追試では、複数の微調整バリアント(SFT/DPO LoRA)、推論時の注意ヘッド介入、凍結したベースに基づく自信ゲーティング付きサイドカーを用いたが、コンテンツを損なわず、スタイルの模倣も引き起こさずにディスポジション指標を改善する手法は見つからなかった。
- 結果は5つのモデルファミリすべてで一貫しており、別の新規プロンプトに対する交差検証性能はほぼ偶然にまで低下した。そのため著者らは、「三つのアーク」による否定的結果と、失敗モードの分類体系を公表した。



