大規模言語モデルにおける隠れたランダム性を特徴づけるための「背景温度」の導入

arXiv cs.AI / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、デコード時の公称温度をT=0にしても、同一入力に対してLLMが異なる出力を生成し得ることを示し、その要因として実装レベルの非決定性を挙げています。
「背景温度（T_bg）」という概念を導入し、T=0でも推論環境に由来して生じる有効的なランダム性を表す枠組みを提示します。
著者らはT_bgを、推論環境（I）により統制される確率的な摂動（ストキャスティック・パータベーション）過程に結び付け、理想的な参照システムにおける同等温度T_n(I)の定義を与えています。
T_bgを推定するための実証プロトコルを提案し、主要なLLMプロバイダ群を対象にした試験実験の結果を報告することで、再現性・評価・デプロイへの影響を論じています。

概要: 温度 $T=0$ で復号しても、大規模言語モデル（LLM）は同一の入力に対して発散した出力を生成し得ます。Thinking Machines Lab による最近の研究では、バッチサイズの変動、カーネルの非不変性、浮動小数点の非可換性といった、実装レベルの非決定性の原因が強調されています。本短い注記では、この挙動を m{背景温度} $T_{\mathrm{bg}}$ の概念として形式化します。これは、名目上 $T=0$ であっても観測される、実装依存の摂動プロセスによって誘起される有効温度です。明確な定義を示し、 $T_{\mathrm{bg}}$ が推論環境 $I$ によって支配される確率的な摂動とどのように関係するかを示します。そして、理想的な参照システムの等価温度 $T_n(I)$ を介して $T_{\mathrm{bg}}$ を推定するための経験的プロトコルを提案します。最後に、主要な LLM 提供者からの代表的なプールを用いて実施した一連のパイロット実験により、このアイデアを実証し、再現性、評価、およびデプロイに関する含意を概説します。