ファインチューニング(FT)が効くケース
FT は「LLM の振る舞いをカスタマイズ」する技術。何でも FT で解決するわけではなく、向き不向きがあります。
FT が向くケース
- 会社固有の口調・トーンを覚えさせたい
- 特殊な出力フォーマットを毎回守らせたい
- 分類や抽出など決まったタスクの精度を上げたい
- 特定ドメインの専門用語に慣れさせたい
- モデルサイズを小さくして推論コストを下げたい
FT が向かないケース
- 新しい知識を入れたい → RAG のほうが効果的
- 頻繁に更新される情報 → RAG(再学習不要)
- 1 回限りのカスタマイズ → プロンプトエンジニアリングで十分
主要手法
Full Fine-tuning
モデル全パラメータを再学習。GPU 数十枚 × 数日〜週。フロンティアモデルでは現実的でない。Llama 3 8B などの中規模モデルでようやく可能。
LoRA(Low-Rank Adaptation)
モデル本体を凍結し、追加の小さな行列だけ学習。GPU 1〜2 枚 × 数時間で可能。最も実用的。
- ストレージ:数十 MB(フルモデルは数十 GB)
- 学習速度:3〜10 倍速い
- 切替容易:複数 LoRA をロード時に選択可
QLoRA
LoRA + 4-bit 量子化。GPU メモリをさらに削減し、コンシューマ GPU(RTX 4090)でも 70B モデルの FT が可能に。


