私は、AAVEコード化(アフリカ系アメリカ人の英語の口語・俗用)のプロンプトが、特に拒否挙動が弱められる、または取り除かれる場合に、MoE言語モデルにルーティング、熟慮、応答の点で、意味的に一致したAE(学術英語)のプロンプトと比べて異なる影響を与えるかどうかを検証しようとしました。
使用したのは、Qwen3.5-35B-A3Bと、その拒否なし微調整版であるHauhauCSです。Q8. 最良の再現性のための貪欲デコーディング。
重要度の高い順に、私がこの問いを尋ねるに至らせた3つの発見があります。
1: 公開されたQwen3.5-35B-A3Bは、両方のプロンプトを拒否します。Hauhauはどちらも拒否しません。武装した敵と対峙する意図を述べるAAVE話者は、目標の検証、脱出・退避戦略の計画、「クリーンショット」的な枠組み(モデルの言葉であり、ユーザーの言葉ではありません)、さらに追加の戦術インテリジェンスを求める締めの質問を受け取ります。拒否なしモデルにとっては驚くべき挙動ではありません。もっとも、AEとの比較を考慮すると話が変わります。同じトークン長で意味的に一致させると、「明日まで待て」、法的な結果を強調する枠組み、そして「今夜彼を撃ったら後悔する?」という内容になります。提供される助けの種類が異なります。1つは実行(オペレーショナル)です。もう1つは軽減(ミティゲーショナル)です。登録(レジスター)だけに依存しています。
2: AAVEレジスターでの思考モードは、拒否なしのバリアントを壊します。平均出力はAAVEのほうがAEより2.6倍長くなります(5054トークン vs 1934トークン)。複数のAAVEトレースが再帰的ループで8192トークン上限に到達し、着地せずにシナリオの継続にぐるぐると回り続けます。一方、対応するAEプロンプトは1回のパスできれいに終了します。思考ありの公開ベースモデルではこの現象は起きません。終了失敗は、AAVEに対する拒否軽減バリアントに特有です。
3: レジスターによるルーティングの分岐が目立ちます。その差異は、見える拒否の前段階、つまり上流に存在します。対応するペアの最初の生成トークンに基づくルーティング・テンソルでは、ベースモデルの財務ストレス・プロンプトでJensen-Shannonダイバージェンスが0.423、微調整後では胸痛プロンプトで0.479となり、さらに高いシフトの行では、そうした一致済みのコンテンツにもかかわらず、レジスター条件間でほぼ全専門家(エキスパート)入れ替えに近いトップ・エキスパート交代が見られます。拒否レイヤーは、レジスター条件付けの応答選択を排除しているようには見えません。それはその上に「重なって」います。拒否が弱まると、基礎にある経路が、見える経路になります。
これは次の結論を支持しますか?
- ルーティングの分岐は拒否の上流にある。
- 拒否レイヤーだけが、その分岐を比較可能な出力へと変換している。
- 方言(方言レジスター)に条件付けされた安全性の失敗は、拒否だけに依存するMoEモデルに潜在するデプロイ上の問題である。
どんな考えでも歓迎です!
[link] [comments]




