潜在蒸留(Latent Distilling)による大規模言語モデルの探索
arXiv cs.LG / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、標準的な確率サンプリングが生む語彙レベルの揺らぎではなく、LLM出力のセマンティック多様性を促すためのデコーディング手法「Exploratory Sampling(ESamp)」を提案する。
- ESampは、テスト時に軽量な蒸留器を学習し、浅い層の表現から深い層の隠れ表現への写像を予測させることで、層をまたぐ表現遷移を捉える。
- デコード中は、この予測誤差を「新規性(novelty)」の指標として用い、現在のプレフィックスに条件付けられた次トークン候補の重み付けを行い、未探索の意味パターンへ誘導する。
- 非同期の学習・推論パイプラインによりオーバーヘッドは小さく(最悪で5%未満、最適化版で1.2%)、推論モデルにおいてPass@k効率を改善する。
- 実験では、ESampが数学・科学・コード生成ベンチマークで堅牢に一般化し、創作ライティングにおける「多様性と整合性のトレードオフ」を緩和できることが示される。



