ChatGPT や Claude のような LLM(大規模言語モデル)は、いきなり完成品として生まれるわけではありません。「事前学習 → 追加学習 → 推論」という 3 つの段階を順番に通って、ようやく私たちが使える形になります。この記事では、その 3 段階を初めての人でも分かるように分解し、「ファインチューニング」がどこに位置するのか、そして実務で耳にする RAG との使い分けまで、図を交えて整理します。
FIG.1 学習(前半2つ)でモデルを「作り」、推論で毎日「使う」
ざっくり言うと、最初の 2 段階=「モデルを作る」工程、最後の推論=「作ったモデルを使う」工程です。作るのは年に数回の大仕事ですが、使うのは毎日・毎秒。だからコストの出どころも段階ごとに大きく違います。順に見ていきましょう。
01事前学習:言葉と世界の知識を覚える
事前学習(Pre-training)は、まっさらなモデルに 「言語の使い方」と「世界の知識」を一気に詰め込む段階です。やっていることは意外と単純で、「次に来る単語を当てる」という穴埋めをひたすら繰り返すだけ。Web ページ・書籍・論文・コードなど、数十兆語ぶんのテキストで延々と予測練習をさせます。
「単語当て」を天文学的な量こなすうちに、モデルの内部には文法・常識・簡単な論理のパターンが自然と蓄積されます。これがあとの全段階の「土台」になります。
- データ:Web・書籍・論文・コードなど、数十兆トークン規模
- やること:次トークン予測(巨大な穴埋め問題)
- 規模:フロンティアモデルで 1 万〜2 万枚以上の GPU を数週間〜数ヶ月連続稼働
- 費用:2026 年級の最前線モデルで 1 回あたり 2〜5 億ドル規模(電力が GPU 以上のボトルネックになりつつある)
- 担い手:OpenAI・Anthropic・Google・Meta・Mistral など、ごく一部のプレイヤー
つまり事前学習は 「資金力のある組織がまとめてやる、一番お金のかかる工程」。私たち利用者がこの段階に手を出すことはまずありません。
02追加学習:人に役立つ・安全に振る舞うよう躾ける
事前学習を終えたモデルは、知識はあっても 「ただの高性能な次単語予測機」にすぎません。質問にきちんと答えたり、危険な要求を断ったり、自然に会話したりはまだ苦手です。そこで 追加学習(Post-training)で「人の役に立つ振る舞い」を後から教え込みます。ここで初めて 「ファインチューニング」という言葉が登場します。



