MoEモデルにおける拒否（refusal）レイヤーは方言条件付きの安全性失敗を隠しているのか

Reddit r/MachineLearning / 2026/5/18

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AAVE（African American English Vernacular）プロンプトが、特に拒否挙動を弱めたり無効化した場合に、安全性に関わる場面でMoEモデルのルーティングや思考、回答をAE（Academic English）と一致させた場合と比べて変えるかを検証する研究です。
Qwen3.5-35B-A3Bと、拒否なしに調整した「HauhauCS」派生（no-refusal fine-tuned）を用いると、公開版は両方のプロンプトを拒否する一方で、拒否なし版ではAAVEとAEのレジスターで支援内容が大きく異なります。
「thinking mode」では、拒否なし版がAAVEに対して出力が終わらない失敗を示し（出力が大幅に長くなり、再帰的なトークン上限ループに入る）、一方で一致させたAEプロンプトは問題なく1回で終了します。
見える拒否の前段で、レジスターによるルーティングの分岐（専門家の入れ替わりの大きさ）が観測され、拒否レイヤーは根本の方言依存の選択をなくすのではなく「上に重なっている」可能性が示唆されます。
著者は、拒否だけに安全性姿勢を依存させるMoEの展開では、拒否が弱まったときに初めて潜在的な方言条件付きの安全性失敗が表面化しうる、という点を指摘しています。

私は、AAVEコード化（アフリカ系アメリカ人の英語の口語・俗用）のプロンプトが、特に拒否挙動が弱められる、または取り除かれる場合に、MoE言語モデルにルーティング、熟慮、応答の点で、意味的に一致したAE（学術英語）のプロンプトと比べて異なる影響を与えるかどうかを検証しようとしました。

使用したのは、Qwen3.5-35B-A3Bと、その拒否なし微調整版であるHauhauCSです。Q8. 最良の再現性のための貪欲デコーディング。

重要度の高い順に、私がこの問いを尋ねるに至らせた3つの発見があります。

1: 公開されたQwen3.5-35B-A3Bは、両方のプロンプトを拒否します。Hauhauはどちらも拒否しません。武装した敵と対峙する意図を述べるAAVE話者は、目標の検証、脱出・退避戦略の計画、「クリーンショット」的な枠組み（モデルの言葉であり、ユーザーの言葉ではありません）、さらに追加の戦術インテリジェンスを求める締めの質問を受け取ります。拒否なしモデルにとっては驚くべき挙動ではありません。もっとも、AEとの比較を考慮すると話が変わります。同じトークン長で意味的に一致させると、「明日まで待て」、法的な結果を強調する枠組み、そして「今夜彼を撃ったら後悔する？」という内容になります。提供される助けの種類が異なります。1つは実行（オペレーショナル）です。もう1つは軽減（ミティゲーショナル）です。登録（レジスター）だけに依存しています。

2: AAVEレジスターでの思考モードは、拒否なしのバリアントを壊します。平均出力はAAVEのほうがAEより2.6倍長くなります（5054トークン vs 1934トークン）。複数のAAVEトレースが再帰的ループで8192トークン上限に到達し、着地せずにシナリオの継続にぐるぐると回り続けます。一方、対応するAEプロンプトは1回のパスできれいに終了します。思考ありの公開ベースモデルではこの現象は起きません。終了失敗は、AAVEに対する拒否軽減バリアントに特有です。

3: レジスターによるルーティングの分岐が目立ちます。その差異は、見える拒否の前段階、つまり上流に存在します。対応するペアの最初の生成トークンに基づくルーティング・テンソルでは、ベースモデルの財務ストレス・プロンプトでJensen-Shannonダイバージェンスが0.423、微調整後では胸痛プロンプトで0.479となり、さらに高いシフトの行では、そうした一致済みのコンテンツにもかかわらず、レジスター条件間でほぼ全専門家（エキスパート）入れ替えに近いトップ・エキスパート交代が見られます。拒否レイヤーは、レジスター条件付けの応答選択を排除しているようには見えません。それはその上に「重なって」います。拒否が弱まると、基礎にある経路が、見える経路になります。

これは次の結論を支持しますか？

- ルーティングの分岐は拒否の上流にある。

- 拒否レイヤーだけが、その分岐を比較可能な出力へと変換している。

- 方言（方言レジスター）に条件付けされた安全性の失敗は、拒否だけに依存するMoEモデルに潜在するデプロイ上の問題である。

どんな考えでも歓迎です！

submitted by /u/imstilllearningthis
[link] [comments]