ファインチューニング(FT)は、すでにあるモデルに追加の学習をさせて、口調や出力フォーマット、特定タスクの精度を自分用に寄せていく技術です。中でも LoRA と、それをさらに省メモリにした QLoRA は、GPU を 1〜2 枚しか使えない環境でも実用的に回せるため、いまや個人やスタートアップの定番になりました。本ガイドは「いつ FT を選ぶか」から、手法の違い・データの作り方・主要サービス・実施手順・つまずきどころまでを、図とともに実務目線で整理します。
大前提として、FT は「知識を足す」技術ではなく「振る舞いを寄せる」技術です。ここを取り違えると、時間とお金をかけたのに成果が出ない、という失敗に直結します。最初の節で向き不向きをはっきりさせます。
01そもそも FT が効くのはどんなときか
「精度が足りない=とりあえず FT」と考えがちですが、FT・RAG・プロンプト設計は役割が違う道具です。FT が向く問題と、別の手段のほうが速くて安い問題を、最初に切り分けます。
FIG.1 「指示で直る/知識が足りない/振る舞いを寄せたい」で道具を選ぶ
FT が向くのは、出力の「形」や「クセ」を毎回そろえたいケースです。
- 会社固有の口調・トーンを一貫させたい(広報文、サポート返信など)
- 毎回きっちり同じ出力フォーマット(決まった JSON 構造、定型レポート)を守らせたい
- 分類・抽出・タグ付けなど、入力と正解の型が決まったタスクの精度を底上げしたい
- 特定ドメインの言い回しや専門用語に慣れさせたい
- 小さめのモデルを自社タスク専用に鍛え、推論コストと遅延を下げたい
逆に向かないのは、次のようなケースです。
- 新しい知識を覚えさせたい → 最新の社内文書や仕様は RAG(検索で根拠を渡す)のほうが正確で、間違いの追跡もしやすい
- 頻繁に更新される情報 → 情報が変わるたびに学習し直すのは非現実的。RAG なら再学習不要
- 一度きり・少量のカスタマイズ → まずはプロンプトに例(few-shot)を入れて様子を見るので十分なことが多い
FT は知識を「教える」のではなく、出力の型と語り口を体に覚えさせる作業に近い。
02主要な手法:Full・LoRA・QLoRA
FT のやり方はいくつかありますが、実務でまず押さえるのは Full Fine-tuning・LoRA・QLoRA の 3 つです。違いは「どこまでのパラメータを動かすか」と「必要な GPU メモリ」です。



