AI Navigate

Nemotron-3-Super-120b 無検閲版

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースTools & Practical UsageModels & Research

要点

  • 投稿は Nemotron-3-Super-120b が LatentMoE と Mamba アテンションを使用していると主張し、前のバージョンには実装の欠陥と「使い物にならないコード」があったと指摘しています。
  • ネイティブ MLX は LatentMoE を現時点でサポートしておらず、独自の .py ファイルを作成するか MLX Studio を使う必要があり、量子化は FP16 ではなくモデルの量子化レベルで適用する必要があると述べています。
  • HarmBench 97% および HumanEval 94% のスコアを報告しており、カスタムの Python スクリプトとチャットテンプレートが同梱されており、MLX Studio は後にネイティブサポートを得る予定だと述べています。
  • HuggingFace のリポジトリへのリンクがあり、以前のバージョンをダウンロードしたユーザーに謝罪しています。

私の最後の投稿は嘘でした - Nemotron-3-Super-120b はこれまでで類を見ないものでした。急いで書いたため、前回の試みが実際には除去されたと信じてしまい、拒否はしなかったものの会話は問題なく続いた一方で、そのコードは使い物にならないものでした。これは LatentMoE と Mamba アテンションの組み合わせを考慮していなかったことが原因です。ここ24時間を費やして、このモデルを再作成するうえで多くの点を考慮しました。

ネイティブの MLX は現時点で LatentMoE をサポートしていません - 独自の .py ファイルを作成するか、MLX Studio を使用する必要があります。

このモデルには手を抜かなければなりませんでした。私はいつも、カスタムのチャットテンプレートやファインチューニング、安物のようなものは一切行っていないと述べますが、実際には拒否ベクトルの除去だけを重視しています。しかし今回だけは、他に選択肢がありませんでした。私が行ったことの結果の一つは、モデルが「閉じる思考」タグを適切に出力しないことが多くなった点です。

その独特なアテンションのため、fp16 へ適用してから量子化を下げるといった方法はありません。これらすべては、その量子化レベルで行う必要があります。q6 および q8 は、遅くとも明日には来る予定です。

私はこのためにも以下のことを行ってきました:

HarmBench: 97%

HumanEval: 94%

どうぞご自身でお試しください。以前のモデルをダウンロードして時間を浪費してしまったおよそ80名ほどの方に、心からお詫びします。

私はカスタムの PY ファイルとチャットテンプレートをファイルに同梱したので、皆さんは MLX を使えます。MLX Studio は今夜遅くにはこれに対するネイティブサポートを追加する予定です。

https://huggingface.co/dealignai/Nemotron-3-Super-120B-A12B-4bit-MLX-CRACK-Uncensored

投稿者 /u/HealthyCommunicat
[リンク] [コメント]