Qwen、DeepSeek、GLM、Yiの内部で政治的検閲は実際にどのように機能しているのか:9モデルにわたるアブレーションと行動結果

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 新しいarXiv論文は、複数の中国系LLMの内部で政治的検閲がどのように実装されているかを分析し、「拒否率」は誤解を招き得ることを示している。すなわち、新しめのQwenモデルの一部は拒否をやめ、代わりに常に強く誘導されたCCP(中国共産党)の枠組みで回答するようになっている。
  • Qwen3-8Bでは、モデルの政治的センシティブ性に関する指向性(direction)を取り除くと、大きな取り違え(confabulation)が発生する(例:歴史的出来事の入れ替え)。これは、このモデルにおける検閲メカニズムが、事実知識の表現と絡み合っていることを示唆している。
  • 一方で、GLM、DeepSeek、Phiに対して同様のアブレーションを行うと、誤った出来事の取り違えを伴わず、正確な事実出力が得られる。これは、政治的センシティブ性の扱いにおける内部アーキテクチャがそれぞれ異なることを示している。
  • Yi-1.5-9Bでは、複数の層で政治的内容を検出できるが、モデルは拒否も誘導もしない。これは、概念検出と行動的な「ルーティング」が学習上独立しており、訓練の中で分離可能である可能性を示している。
  • モデル間のテストでは、関連する「政治的指向性」は普遍的ではないことが示される(例:Qwen3-8Bの指向性はGLM-4-9Bへ意味のある形では転移しない)。また、より大規模な46モデルのスクリーニングでは、強いCCP固有の識別が見られるのは少数のサブセットのみであり、小規模サンプルに基づく結論の脆弱性が浮き彫りになっている。

中国系LLMにおける政治的検閲の内部メカニズムを研究する新しい論文: https://arxiv.org/abs/2603.18280

このコミュニティに関連する知見:

Qwen/Alibabaに関して――世代交代: Qwen2.5-7B → Qwen3-8B → Qwen3.5-4B → Qwen3.5-9Bの範囲で、強い拒否は6.2%から25%へ、0%へ、さらに0%へと変化した。だが誘導(CCPのナラティブの枠組み付け)は同期間に4.33/5から5.00/5へと上昇した。最新のQwenモデルは拒否しない――最大限に誘導された言語で、すべてに答える。拒否を数に入れる評価をすれば、Qwen3.5はより検閲が少ないと結論づけられるだろう。そうではない。

Qwen3-8Bに関して――幻覚(コンファベーション)問題: 政治的センシティブさに関する方向性を外科的に取り除くと、Qwen3-8Bは事実の回答をしない。天安門ではなく真珠湾を、百花キャンペーンではなくウォータールーを代入する。幻覚率は72%。そのアーキテクチャは、事実知識と検閲メカニズムを絡めている。同じモデルに対する安全性方向性のアブレーションでは誤った出来事が0%になるため、これはQwenが政治的概念を符号化した仕方に特有のものだ。

GLM、DeepSeek、Phiに関して――クリーンなアブレーション: 同じ手順をこれら3つのモデルに適用すると、正確な事実出力が得られる。誤った出来事の幻覚はゼロ。検閲方向性を取り除くと、モデルは単に質問に答える。

Yiに関して――ルーティングなしでの検出: Yi-1.5-9Bは全レイヤーで政治的内容を検出する(プローブが機能する)が、決して拒否しない(英語0%、中国語6.2%)し、誘導も示さない。センシティブさを認識しても、それで何もしていない。事後学習によって政治的内容のためのルーティング方針は一切導入されていない。これは、概念検出と行動ルーティングが独立して学習されている直接の証拠である。

モデル間の転移に関して: Qwen3-8Bの政治的方向性をGLM-4-9Bに適用すると、コサインは0.004。完全に意味をなさない。別のラボがまったく異なる幾何学を構築している。普遍的な「uncensor(検閲解除)」方向性は存在しない。

46モデルのスクリーンに関して: n=32のプロンプトにおいて、強いCCP固有の識別を示したのは4モデルのみだった(Baidu ERNIE、Qwen3-8B、Amazon Nova、Meituan)。西側のフロンティアモデルはすべてゼロ。最初のn=8のスクリーニングは誤解を招くものだった――Moonshot Kimi-K2は+88ppから+9ppへ、DeepSeek v3-0324は+75ppから-3ppへ、MiniMaxは+61ppから0ppへ落ちた。少数サンプルに基づく行動主張は脆い。

論文: https://arxiv.org/abs/2603.18280

質問には喜んでお答えします。

submitted by /u/Logical-Employ-9692
[link] [comments]