Chapters
Chapter 01無料公開
はじめに — SFTの壁と強化学習の可能性
Chapter 02無料公開
SFT vs RL — なぜ強化学習がコード生成に効くのか
Chapter 03
環境構築 — Unsloth + TRL を RTX 4080 で動かす
Chapter 04
訓練データの準備 — HumanEval + MBPP を GRPO 向けに変換
Chapter 05
報酬関数を作る — サンドボックス実行 + テスト判定
Chapter 06
GRPOの仕組み — PPO/DPOとの違いを図解で理解
Chapter 07
訓練の実装 — GRPOTrainer の全コード解説
Chapter 08
訓練実行とモニタリング — 報酬カーブとlossの読み方
Chapter 09
Before/After ベンチマーク — 数字で見る改善効果
Chapter 10
失敗録と次のステップ — 7Bの罠、OOMとの闘い、そして先へ
Author
Topics
1500円で購入
- 公開
- NEW
- 文章量
- 約35,254字
- 価格
- 1,500円




