AI Navigate

Nemotron-3-Nano(4Bパラメータ)、NVIDIA製の新しいハイブリッドMamba+Attentionモデル、WebGPU上でブラウザ内でローカルに動作します。

Reddit r/LocalLLaMA / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • NVIDIAはNemotron-3-Nanoをリリースしました。これは、推論タスクと非推論タスクの両方を扱うよう設計された4BのハイブリッドMamba+Attentionモデルです。
  • WebGPUベースのデモは、ブラウザ内で完全にローカルに動作します(Transformers.js経由)。サーバーを介さずにクライアントサイド推論を実演します。
  • デモはM4 Max上で約75トークン/秒と報告されており、小さなモデルに対するデバイス上の実用的な性能を示しています。
  • このプロジェクトには、HuggingFace Spacesのデモと実験用のソースコードへのリンクが提供されています。
Nemotron-3-Nano (4B), new hybrid Mamba + Attention model from NVIDIA, running locally in your browser on WebGPU.

NVIDIAの新しい Nemotron-3-Nano モデルについて話題にしている人をあまり見かけませんでした... つい数日前にリリースされたので、WebGPU のデモを作ることにしました! すべてはあなたのブラウザ上でローカルに動作します(Transformers.js を使用)。 私の M4 Max では、約 75 トークン/秒を得ています - 悪くないです!

これは4Bパラメータのハイブリッド Mamba + Attention モデルで、推論タスクと推論以外のタスクの両方をこなす能力を持つよう設計されています。

デモへのリンク(+ソースコード): https://huggingface.co/spaces/webml-community/Nemotron-3-Nano-WebGPU

投稿者 /u/xenovatech
[リンク] [コメント]