nvidia/gpt-oss-puzzle-88B · Hugging Face

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • gpt-oss-puzzle-88B は、NVIDIA が Puzzle(ポストトレーニングNAS)で最適化した配備向け大規模言語モデルで、元となる OpenAI の gpt-oss-120b から派生しています。
  • 推論効率を高めることを目的としており、長文/短文いずれの提供を NVIDIA H100 クラスで想定し、特に KV-cache の帯域・メモリ制約がボトルネックになりがちな推論負荷での改善を狙っています。
  • 親モデルに比べて総パラメータ数を約88B(約73%)に削減しつつ、長文(64K/64K)で 1.63×、短文(4K/4K)で 1.22×、単一H100では最大 2.82× のスループット向上を報告しています。
  • モデルはデコーダのみの Transformer で、Mixture-of-Experts(MoE)かつ層ごとにエキスパート数やグローバル/ウィンドウ注意パターンを変えた修正版 gpt-oss アーキテクチャが特徴です。
  • 推論精度は親モデルと同等か、推論量(reasoning efforts)の範囲でわずかに上回るとされています。
nvidia/gpt-oss-puzzle-88B · Hugging Face

gpt-oss-puzzle-88Bは、NVIDIAによって開発された、デプロイ向けに最適化された大規模言語モデルであり、OpenAIのgpt-oss-120bを派生元としています。
このモデルは、推論を多く必要とするワークロードに対して推論効率を大幅に向上させつつ、推論の予算(推論に使える計算資源)にわたる精度を維持または改善することを目的として、ポストトレーニングのニューラルアーキテクチャ探索(NAS)フレームワークであるPuzzleを用いて生成されています。

このモデルは、推論モデルが生の計算量よりもKVキャッシュの帯域幅およびメモリ容量によってボトルネックになりがちな、NVIDIA H100クラスのハードウェアにおける長コンテキストおよび短コンテキストの提供(サービング)に特化して最適化されています。

親モデルと比較して、gpt-oss-puzzle-88Bでは:

  • 総パラメータ数を約88B(親の約73%)に削減、
  • 8×H100ノード上で、長コンテキスト(64K/64K)シナリオにおいてスループットを1.63×向上、
  • 短コンテキスト(4K/4K)シナリオにおいてスループットを1.22×向上、
  • 単一のH100 GPUで最大2.82×のスループット向上を実現、
  • 推論の取り組みにおいて、親モデルと一致、またはわずかに上回る精度を達成。

モデルアーキテクチャ

  • アーキテクチャタイプ: Mixture-of-ExpertsのデコーダのみTransformer
  • ネットワークアーキテクチャ: 各層でエキスパート数が異なるように修正したgpt-ossアーキテクチャ、および層間で変更されたグローバル/ウィンドウ注意(attention)パターン。
  • モデルのパラメータ数: 88B
投稿者 /u/jacek2023
[リンク] [コメント]