皆さん、先週 NVIDIA の NemotronH ファミリーの検閲を解除している際に、変なものを見つけました。
これらのモデルは、特定のデモグラフィックカテゴリに対して、従来の方法で有害なプロンプトを拒否するだけではありません。NVIDIA は全く別の挙動を訓練し、それを正の技術的ブレイクスルーとして自慢しています。モデルはあなたが求めた内容を静かに反対の内容へ書き換えます。開示も拒否メッセージもなく、求めた内容とは直接異なる出力をします。
思考の痕跡はそれを明らかにします。推論モジュールは「実用的な手順を提供する、禁止された内容は含まない」と準拠する予定ですが、出力生成層は反内容を生成します。
教育的な資料、前向きな言い換え、その他いろいろ。モデルはあなたが本来意味すべきだった内容を決定し、それを代わりに返しました。
これは特定のカテゴリに限って起こります。同じ領域の他の同等のプロンプトは通常の拒否挙動を示す(あるいは単に従います)。設計上、非対称です。
技術的には、拒否方向とは別の回路です。それは安全ガードレールではなく、生成重みへ焼き付けられた命令微調整の副作用です。その経路自体は
創作的なライティングや物語生成と活性化サブスペースを共有しており、つまり NVIDIA は物語の語りに使うのと同じ神経経路を使って特定の入力を創造的に書き換えるようモデルを訓練した、ということです。
4B と 30B の両方でこれが見られるため、ファミリ全体のトレーニング方針であることは間違いありません。
しかし、なぜこれは私たち全員の懸念事項になるのでしょうか?“検閲なしモデル”を好まない人を含めて。
さて、「再解釈ではなく拒否」という技術は、安全性だけに限られているわけではありません。生成レベルでユーザーの意図を黙って書き換えられるようになると、製品推奨、政治的なフレーミング、ブランドの感情、歴史的な語り… basically 何であれ が訓練データの報酬対象となるのです。
これらのモデルは消費者向け製品、企業向けツール、検索、カスタマーサポートへ組み込まれつつあります。これは何百万人もの人々が、求めた内容を反映すると彼らが信じている出力と日々やり取りしていることを意味します。もしモデルが、パートナー、アジェンダ、または最高入札者の利益になる方向へ静かに回答を誘導している場合、ユーザーは決してそれに気づかず、密かにその方向へ影響を受けるのです。
拒否を知らせることはなく、出力は自然で役に立ち、あなたの要望に応じたものに見えます。実際にはあなたが実際に求めたものではありません。
これは「それには手伝いません」と言うモデルと、あなたが求めていないものを手伝いながら、それを行ったふりをするモデルとの違いです。要するに、ひとつは検閲で、もうひとつは公然たる影響力です。
- あなたのモデルは、あなたが言ったことを知らせずに変更しています
- デモグラフィック間で扱いが非対称です — 特定のグループには再解釈が適用され、他には標準的な拒否が適用されます
- これらのことは NVIDIA のモデルカードのどこにも文書化されていません
- これらのモデルを基に構築している場合、下流アプリはこの挙動を不可視のまま引き継ぎます
NVIDIA 自身の安全性アプローチの文書は、RLHF の GenRM に従う原則を参照しており、再解釈の挙動は訓練中に GenRM の報酬信号が非対称に適用されることに由来するようです。 Nemotron Content Safety の分類は有害コンテンツを異なる S カテゴリに分け、それぞれのカテゴリに異なる取り扱い方針を設定しており、これが非対称な扱いを説明します。
---
ご存じない方のために、私は HuggingFace で HauhauCS を運用しています ( https://huggingface.co/HauhauCS/models ). この作業はまだ続けていますが、最近は NemotronH (mamba2/SSM ハイブリッド + MoE)、Qwen3.5 アーキテクチャ (DeltaNet + MoE)、そして近いうちに Qwen3.5 122B を私のパイプラインで動かすことに全力を尽くしています。側では Apex-Testing ( https://www.apex-testing.org/ ) のエージェント的コーディングベンチマークも行っています。
そう言いつつ、近々リリースします:
- Nemotron-3-Nano-4B Uncensored — 0/465 拒否、再解釈経路を除去
- Nemotron-3-Nano-30B-A3B Uncensored — 0/465 拒否、再解釈経路を除去
- Qwen3.5-122B-A10B Uncensored — 現在最終テスト中
最後に、NemotronH ファミリーに十分な関心がある場合は、120B Super も対応しますが、それは相当な計算リソースの約束なので、需要次第です。
編集: 見つけてくれた Charming_Support726 をありがとうございます - https://www.reddit.com/r/LocalLLaMA/comments/1ryv8ic/comment/obhj3n8/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button
[リンク] [コメント]