生成AI(Generative AI)は、文章・画像・音声・コードなどを「それっぽく新しく作る」技術の総称です。文章生成の中心にいるのがLLM(Large Language Model:大規模言語モデル)。ChatGPTのようなサービスは、LLMで次に来そうなトークンを予測し続けることで文章を作っています。仕組みをざっくり掴めば、生成AIは「魔法」から「道具」になります。
ポイントは、「意味を理解している」よりも統計的にもっとも自然に続く文字列を高い精度で当てること。とはいえ規模が大きくなるほど抽象的なパターンも学べるので、結果として“理解しているように見える”振る舞いになります。本稿では、その根っこをトークン・Transformer・生成の流れに分けて、図とともに整理します。
01LLMの基本:学習と推論の2フェーズ
LLMの一生は、大きく学習(Training)と推論(Inference)の2つに分かれます。学習で世界中のテキストからパターンを覚え、推論であなたの入力に応じて文章を生成します。
学習(Training)では、インターネット文書・書籍・論文・コードなどの大量データから、文の続きが当たるように内部の重みを調整します。典型的には「次のトークン予測」(次に来るトークンを当てる)を延々と繰り返し、間違いが減るように修正していきます。たとえば「明日の天気は」→ 次は「晴れ」「雨」「曇り」などが来そう、というふうに、文脈や頻度、前後関係から確率を学びます。
推論(Inference)では、ユーザーがプロンプトを入れると、モデルは内部で確率分布を作り、次トークンを選びます。これを繰り返して文章が伸びていきます。ここで効いてくるのが生成パラメータです。
| temperature(温度) | top-p(nucleus sampling) |
|---|---|
| 低いほど堅め(無難)、高いほど多様(発散しやすい) | 確率上位の候補のうち、合計確率が p になる範囲から選ぶ |
| 「答えのブレ幅」を決めるツマミ | 「拾う候補の広さ」を決めるツマミ |
02トークン:単語より細かいAIの文字単位
LLMが扱う最小単位は、多くの場合トークンです。トークンは「単語」そのものとは限らず、単語の一部や記号、日本語なら文字やサブワードのまとまりになります。LLMは文章をまずトークン列に分解し、その列をもとに予測します。
FIG.1 文章はまず「サブワード単位」のトークン列に分解されてから処理される
トークンを意識すべき理由は3つあります。
コスト
API課金はトークン数ベースが多い(入力+出力で計算される)。
長さ制限
一度に扱えるトークン数(コンテキスト長)に上限がある。
プロンプト設計
同じ内容でもトークン効率で結果やコストが変わる。
実務での目安として、英語は「1トークン≒4文字」などと語られます。一方、日本語は分割が細かくなりやすく、同じ情報量でもトークンが増えがちです。長文をそのまま投げるより、要約→整理→投入のほうが安定しやすいのはこのためです。
03Transformer:LLMを支える超重要なエンジン
現在のLLMの多くはTransformer(トランスフォーマー)というニューラルネットの構造をベースにしています。その強みは、文章のどこに注目すべきかを計算するAttention(注意機構)にあります。
人間も文章を読むとき、すべてを同じ熱量では見ません。主語や目的語、直前の条件文など、重要な箇所を強く参照します。Attentionはこれを数式でやっていて、各トークンが他のトークンをどれだけ参照すべきか(重み)を計算します。




