潜在蒸留(Latent Distilling)による大規模言語モデルの探索

arXiv cs.LG / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、標準的な確率サンプリングが生む語彙レベルの揺らぎではなく、LLM出力のセマンティック多様性を促すためのデコーディング手法「Exploratory Sampling(ESamp)」を提案する。
  • ESampは、テスト時に軽量な蒸留器を学習し、浅い層の表現から深い層の隠れ表現への写像を予測させることで、層をまたぐ表現遷移を捉える。
  • デコード中は、この予測誤差を「新規性(novelty)」の指標として用い、現在のプレフィックスに条件付けられた次トークン候補の重み付けを行い、未探索の意味パターンへ誘導する。
  • 非同期の学習・推論パイプラインによりオーバーヘッドは小さく(最悪で5%未満、最適化版で1.2%)、推論モデルにおいてPass@k効率を改善する。
  • 実験では、ESampが数学・科学・コード生成ベンチマークで堅牢に一般化し、創作ライティングにおける「多様性と整合性のトレードオフ」を緩和できることが示される。

Abstract

多様な応答を生成することは、大規模言語モデル(LLM)のテスト時スケーリングにおいて重要である。しかし、標準的な確率的サンプリングでは主に表層的な語彙の変化が得られるだけで、意味の探索は制限される。本論文では、生成中に意味の多様性を明示的に促すデコーディング手法である Exploratory Sampling(ESamp)を提案する。ESampは、ニューラルネットワークが、過去に遭遇したものに類似した入力に対しては誤差が小さい予測を行いやすく、新規なものに対しては予測誤差が大きくなる、というよく知られた観察に動機づけられている。この性質に基づき、テスト時に軽量なDistillerを訓練し、浅い層の表現からLLMの深い層の隠れ表現を予測して、深さ方向の表現遷移をモデル化する。デコード中、Distillerは現在の生成コンテキストによって引き起こされる写像に対して継続的に適応する。ESampは、予測誤差を目新しさ(novelty)の指標として用い、現在の接頭辞に条件づけられた候補トークンの拡張に重み付けし直すことで、十分に探索されていない意味パターンへとデコードを偏らせる。ESampは、非同期の学習--推論パイプラインとして実装されており、最悪の場合のオーバーヘッドは5%未満(最適化されたリリースでは1.2%)である。実験結果から、ESampは推論モデルのPass@k効率を大幅に向上させ、強力な確率的手法およびヒューリスティック手法のベースラインに対して優れている、または同等の性能を示す。特に、ESampは数学、科学、およびコード生成のベンチマークにわたって頑健な汎化を達成し、創作文章における多様性と整合性(coherence)のトレードオフを破る。コードは以下で公開済み: https://github.com/LinesHogan/tLLM。