生成AIって結局なにをしているの?
生成AI(Generative AI)は、文章・画像・音声・コードなどを「それっぽく新しく作る」技術の総称です。とくに文章生成で中心にいるのがLLM(Large Language Model:大規模言語モデル)。ChatGPTのようなサービスは、LLMを使って次に来そうな単語(正確にはトークン)を予測し続けることで文章を作っています。
ポイントは、「意味を理解している」よりも統計的にもっとも自然に続く文字列を高い精度で当てること。とはいえ、規模が大きくなるほど抽象的なパターンも学べるので、結果として“理解しているように見える”振る舞いになります。
LLMの基本:学習と推論の2つのフェーズ
1) 学習(Training):大量のテキストからパターンを覚える
LLMはインターネット文書、書籍、論文、コードなどの大量データから、文の続きが当たるように学習します。典型的には「次のトークン予測」(次に来るトークンを当てる)を繰り返し、間違いが減るようにモデル内部の重みを調整します。
ざっくり例:「明日の天気は」→ 次は「晴れ」「雨」「曇り」などが来そう。文脈や頻度、前後関係から確率を学ぶ。
2) 推論(Inference):入力に対して次トークンを生成する
ユーザーがプロンプトを入れると、モデルは内部で確率分布を作り、次トークンを選びます。これを繰り返して文章が伸びていきます。ここでよく出てくるのが温度(temperature)やtop-pなどの生成パラメータです。
- temperature:低いほど堅め(無難)、高いほど多様(発散しやすい)
- top-p(nucleus sampling):確率上位の候補のうち、合計確率がpになる範囲から選ぶ
トークンとは?「単語」より細かいAIの文字単位
LLMが扱う最小単位は、多くの場合トークンです。トークンは「単語」そのものとは限らず、単語の一部や記号、日本語なら文字やサブワードのまとまりになります。LLMは文章をまずトークン列に分解し、その列をもとに予測します。
トークンが重要な理由
- コスト:API課金はトークン数ベースが多い(入力+出力)
- 長さ制限(コンテキスト長):一度に扱えるトークン数に上限がある