nvidia/gpt-oss-puzzle-88B · Hugging Face

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsModels & Research

共有:

要点

gpt-oss-puzzle-88B は、NVIDIA が Puzzle（ポストトレーニングNAS）で最適化した配備向け大規模言語モデルで、元となる OpenAI の gpt-oss-120b から派生しています。
推論効率を高めることを目的としており、長文/短文いずれの提供を NVIDIA H100 クラスで想定し、特に KV-cache の帯域・メモリ制約がボトルネックになりがちな推論負荷での改善を狙っています。
親モデルに比べて総パラメータ数を約88B（約73%）に削減しつつ、長文（64K/64K）で 1.63×、短文（4K/4K）で 1.22×、単一H100では最大 2.82× のスループット向上を報告しています。
モデルはデコーダのみの Transformer で、Mixture-of-Experts（MoE）かつ層ごとにエキスパート数やグローバル/ウィンドウ注意パターンを変えた修正版 gpt-oss アーキテクチャが特徴です。
推論精度は親モデルと同等か、推論量（reasoning efforts）の範囲でわずかに上回るとされています。

nvidia/gpt-oss-puzzle-88B · Hugging Face

gpt-oss-puzzle-88Bは、NVIDIAによって開発された、デプロイ向けに最適化された大規模言語モデルであり、OpenAIのgpt-oss-120bを派生元としています。
このモデルは、推論を多く必要とするワークロードに対して推論効率を大幅に向上させつつ、推論の予算（推論に使える計算資源）にわたる精度を維持または改善することを目的として、ポストトレーニングのニューラルアーキテクチャ探索（NAS）フレームワークであるPuzzleを用いて生成されています。

このモデルは、推論モデルが生の計算量よりもKVキャッシュの帯域幅およびメモリ容量によってボトルネックになりがちな、NVIDIA H100クラスのハードウェアにおける長コンテキストおよび短コンテキストの提供（サービング）に特化して最適化されています。

親モデルと比較して、gpt-oss-puzzle-88Bでは：

総パラメータ数を約88B（親の約73%）に削減、
8×H100ノード上で、長コンテキスト（64K/64K）シナリオにおいてスループットを1.63×向上、
短コンテキスト（4K/4K）シナリオにおいてスループットを1.22×向上、
単一のH100 GPUで最大2.82×のスループット向上を実現、
推論の取り組みにおいて、親モデルと一致、またはわずかに上回る精度を達成。

モデルアーキテクチャ

アーキテクチャタイプ： Mixture-of-ExpertsのデコーダのみTransformer
ネットワークアーキテクチャ： 各層でエキスパート数が異なるように修正したgpt-ossアーキテクチャ、および層間で変更されたグローバル／ウィンドウ注意（attention）パターン。
モデルのパラメータ数： 88B

投稿者 /u/jacek2023
[リンク] [コメント]

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

日経XTECH

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

日経XTECH

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

日経XTECH

nvidia/gpt-oss-puzzle-88B · Hugging Face

要点

モデルアーキテクチャ

関連記事

米ハイパーライトとUMC、光電融合向け「TFLN」量産 AI省電力に

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

生成AIで従来型インフラは限界に、IOWN APNで距離と遅延の壁を克服

AIによる「同質化のわな」から抜け出せるか、技術戦略責任者が議論

ロブスターに沸いたNVIDIAのGTC 2026、OpenClawでAI業界激震

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer