学習・推論・ファインチューニング:3 段階を初学者向けに分解

AI Navigate Original / 2026/4/27

💬 オピニオンTools & Practical UsageModels & Research
共有:

要点

  • LLM のライフサイクルは「事前学習 → 追加学習 → 推論」の 3 段階
  • 事前学習:膨大なテキストで「次の単語予測」を学ぶ。数億〜数兆円のコスト
  • 追加学習:SFT、RLHF、DPO で人間好みに調整
  • 推論:実際に使うフェーズ。コストは学習比で安いが累積で大きい
  • ファインチューニングは LoRA で安価に。RAG と使い分けが重要

3 段階のライフサイクル

LLM は「事前学習 → 追加学習 → 推論」の 3 段階で動きます。それぞれコスト構造と難易度が大きく違います。

1. 事前学習(Pre-training)

モデルに「言語の使い方」と「世界の知識」を覚えさせる段階。

  • データ:Web、書籍、論文、コード、画像など数十兆トークン
  • タスク:「次の単語を予測する」(次トークン予測)
  • 計算量:GPT-4 級で 100 億〜500 億ドル相当の電力
  • 期間:数週間〜数ヶ月、数千〜数万 GPU を連続稼働
  • 誰が:OpenAI、Anthropic、Google、Meta、Mistral など限られたプレイヤー

このフェーズで「世界の常識」「文法」「論理推論の素」が形成されます。

2. 追加学習(Post-training)

事前学習だけでは「ただの次単語予測機」なので、人間の指示に従う・有害発言しない・自然な対話をする等の調整が必要。

SFT(Supervised Fine-Tuning)

「質問→理想的な回答」のペアでファインチューニング。最初の指示追従能力を獲得。

RLHF(Reinforcement Learning from Human Feedback)

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。