Nemotron-3-Nano（4Bパラメータ）、NVIDIA製の新しいハイブリッドMamba＋Attentionモデル、WebGPU上でブラウザ内でローカルに動作します。

Reddit r/LocalLLaMA / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

NVIDIAはNemotron-3-Nanoをリリースしました。これは、推論タスクと非推論タスクの両方を扱うよう設計された4BのハイブリッドMamba＋Attentionモデルです。
WebGPUベースのデモは、ブラウザ内で完全にローカルに動作します（Transformers.js経由）。サーバーを介さずにクライアントサイド推論を実演します。
デモはM4 Max上で約75トークン/秒と報告されており、小さなモデルに対するデバイス上の実用的な性能を示しています。
このプロジェクトには、HuggingFace Spacesのデモと実験用のソースコードへのリンクが提供されています。

Nemotron-3-Nano (4B), new hybrid Mamba + Attention model from NVIDIA, running locally in your browser on WebGPU.

NVIDIAの新しい Nemotron-3-Nano モデルについて話題にしている人をあまり見かけませんでした... つい数日前にリリースされたので、WebGPU のデモを作ることにしました！すべてはあなたのブラウザ上でローカルに動作します（Transformers.js を使用）。私の M4 Max では、約 75 トークン/秒を得ています - 悪くないです！

これは4Bパラメータのハイブリッド Mamba + Attention モデルで、推論タスクと推論以外のタスクの両方をこなす能力を持つよう設計されています。

デモへのリンク（＋ソースコード）: https://huggingface.co/spaces/webml-community/Nemotron-3-Nano-WebGPU

投稿者 /u/xenovatech
[リンク] [コメント]

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

Dev.to

コンテンツクリエイターのためのAIプロンプト完全ガイド

Dev.to

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

山積みからプロトコルへ：スケール時のベンダーコンプライアンスにおけるAI活用

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

Nemotron-3-Nano（4Bパラメータ）、NVIDIA製の新しいハイブリッドMamba＋Attentionモデル、WebGPU上でブラウザ内でローカルに動作します。

要点

関連記事

EU AI Act適合性のために11,529台のMCPサーバをスキャンしました

コンテンツクリエイターのためのAIプロンプト完全ガイド

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

山積みからプロトコルへ：スケール時のベンダーコンプライアンスにおけるAI活用

MCPスキルとMCPツール: サーバーを正しく構成する方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer