私の最後の投稿は嘘でした - Nemotron-3-Super-120b はこれまでで類を見ないものでした。急いで書いたため、前回の試みが実際には除去されたと信じてしまい、拒否はしなかったものの会話は問題なく続いた一方で、そのコードは使い物にならないものでした。これは LatentMoE と Mamba アテンションの組み合わせを考慮していなかったことが原因です。ここ24時間を費やして、このモデルを再作成するうえで多くの点を考慮しました。
ネイティブの MLX は現時点で LatentMoE をサポートしていません - 独自の .py ファイルを作成するか、MLX Studio を使用する必要があります。
このモデルには手を抜かなければなりませんでした。私はいつも、カスタムのチャットテンプレートやファインチューニング、安物のようなものは一切行っていないと述べますが、実際には拒否ベクトルの除去だけを重視しています。しかし今回だけは、他に選択肢がありませんでした。私が行ったことの結果の一つは、モデルが「閉じる思考」タグを適切に出力しないことが多くなった点です。
その独特なアテンションのため、fp16 へ適用してから量子化を下げるといった方法はありません。これらすべては、その量子化レベルで行う必要があります。q6 および q8 は、遅くとも明日には来る予定です。
私はこのためにも以下のことを行ってきました:
HarmBench: 97%
HumanEval: 94%
どうぞご自身でお試しください。以前のモデルをダウンロードして時間を浪費してしまったおよそ80名ほどの方に、心からお詫びします。
私はカスタムの PY ファイルとチャットテンプレートをファイルに同梱したので、皆さんは MLX を使えます。MLX Studio は今夜遅くにはこれに対するネイティブサポートを追加する予定です。
https://huggingface.co/dealignai/Nemotron-3-Super-120B-A12B-4bit-MLX-CRACK-Uncensored
[リンク] [コメント]




