3 段階のライフサイクル
LLM は「事前学習 → 追加学習 → 推論」の 3 段階で動きます。それぞれコスト構造と難易度が大きく違います。
1. 事前学習(Pre-training)
モデルに「言語の使い方」と「世界の知識」を覚えさせる段階。
- データ:Web、書籍、論文、コード、画像など数十兆トークン
- タスク:「次の単語を予測する」(次トークン予測)
- 計算量:GPT-4 級で 100 億〜500 億ドル相当の電力
- 期間:数週間〜数ヶ月、数千〜数万 GPU を連続稼働
- 誰が:OpenAI、Anthropic、Google、Meta、Mistral など限られたプレイヤー
このフェーズで「世界の常識」「文法」「論理推論の素」が形成されます。
2. 追加学習(Post-training)
事前学習だけでは「ただの次単語予測機」なので、人間の指示に従う・有害発言しない・自然な対話をする等の調整が必要。
SFT(Supervised Fine-Tuning)
「質問→理想的な回答」のペアでファインチューニング。最初の指示追従能力を獲得。


