LLM は同じ質問に対して、毎回まったく同じ答えを返すとは限りません。これは内部で「次に来る単語の確率」を計算したあと、その確率にしたがってくじを引くように一語ずつ選んでいるからです。このくじの引き方を調整するのが温度(temperature)・top-p・top-k。本記事では、それぞれが確率に何をしているのかを図で押さえ、用途ごとの具体的な設定値まで一気に整理します。
FIG.1 LLM は確率分布を作り、そこから1語を引く。温度・top-p・top-k はこの「引き方」を変える
大事なのは、これら3つはくじの引き方を変えるだけで、モデルの知識そのものを変えるわけではないこと。「賢くする設定」ではなく「堅実に行くか、冒険させるか」を選ぶダイヤルだと考えてください。
01温度(Temperature):分布のとがり具合を変える
温度は、確率分布をとがらせる(自信のある候補にさらに偏らせる)か、なだらかにする(候補を横並びに近づける)かを決めます。仕組みは単純で、各候補のスコア(logit)を温度 T で割ってから確率に変換します。T を小さくすると差が拡大して1位が独走し、T を大きくすると差が縮まって下位にもチャンスが回ります。
FIG.2 同じ素の確率でも、低温は本命に集中し、高温は下位候補にも確率が回る
「日本の首都は」の次に来る単語で見る
素の確率が「東京 0.95/京都 0.03/大阪 0.01/その他 0.01」だったとします。温度を変えると、選ばれやすさは次のように動きます。
| 候補 | 素の確率 | T=0.3(低温) | T=1.0(そのまま) | T=1.8(高温) |
|---|---|---|---|---|
| 東京 | 0.95 | ほぼ1.0 | 0.95 | 0.68 |
| 京都 | 0.03 | ごく僅か | 0.03 | 0.16 |
| 大阪 | 0.01 | ほぼ0 | 0.01 | 0.10 |
| その他 | 0.01 | ほぼ0 | 0.01 | 0.06 |
低温では本命がさらに盤石になり、毎回ほぼ同じ答えになります。高温では「京都」「大阪」のような本来ありえない答えにも確率が回り、出力がばらつきます。事実を聞く用途で高温が危ないのはこのためです。
温度の目安(用途別)
- 0.0:毎回ほぼ同じ最尤の答え。分類・抽出・テスト向き。
- 0.0〜0.3:ほぼ決定的。事実確認、要約、データ抽出。
- 0.5〜0.7:標準。チャット、Q&A、コード生成。



