GPT-OSS-120B を DeepSpeed ZeRO-3 でファインチューニングする

Zenn / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

GPT-OSS-120Bを対象に、DeepSpeed ZeRO-3を用いた分散ファインチューニング手順を整理しています。
ZeRO-3によるメモリ/計算の効率化を前提として、大規模モデルでも現実的な学習構成を組み立てる考え方が示されています。
学習の設定・運用に必要な実装上の論点（ZeRO-3前提の構成、学習パイプラインの組み込み）に焦点を当てています。
実際のファインチューニングを進めるための実務的な観点（再現性のある進め方、構成の要点）が中心です。

はじめに GPT-OSS-120B は、OpenAI により公開された Mixture of Experts（MoE）アーキテクチャ採用の 120B パラメータ大規模言語モデルです。モデルのパラメータサイズが非常に大きいため、ファインチューニングには複数 GPU への分散が必要になります。たとえば H200 では、1 台あたりのメモリ容量が 141 [GB] であるものの、単体ではモデル全体を収めることができません。HuggingFace Transformers（以下 Transformers）の機能を使えば、モデルを複数 GPU に分割配置すること自体は可能です。しかし、この方法...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →