Qwen、DeepSeek、GLM、Yiの内部で政治的検閲は実際にどのように機能しているのか：9モデルにわたるアブレーションと行動結果

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

新しいarXiv論文は、複数の中国系LLMの内部で政治的検閲がどのように実装されているかを分析し、「拒否率」は誤解を招き得ることを示している。すなわち、新しめのQwenモデルの一部は拒否をやめ、代わりに常に強く誘導されたCCP（中国共産党）の枠組みで回答するようになっている。
Qwen3-8Bでは、モデルの政治的センシティブ性に関する指向性（direction）を取り除くと、大きな取り違え（confabulation）が発生する（例：歴史的出来事の入れ替え）。これは、このモデルにおける検閲メカニズムが、事実知識の表現と絡み合っていることを示唆している。
一方で、GLM、DeepSeek、Phiに対して同様のアブレーションを行うと、誤った出来事の取り違えを伴わず、正確な事実出力が得られる。これは、政治的センシティブ性の扱いにおける内部アーキテクチャがそれぞれ異なることを示している。
Yi-1.5-9Bでは、複数の層で政治的内容を検出できるが、モデルは拒否も誘導もしない。これは、概念検出と行動的な「ルーティング」が学習上独立しており、訓練の中で分離可能である可能性を示している。
モデル間のテストでは、関連する「政治的指向性」は普遍的ではないことが示される（例：Qwen3-8Bの指向性はGLM-4-9Bへ意味のある形では転移しない）。また、より大規模な46モデルのスクリーニングでは、強いCCP固有の識別が見られるのは少数のサブセットのみであり、小規模サンプルに基づく結論の脆弱性が浮き彫りになっている。

中国系LLMにおける政治的検閲の内部メカニズムを研究する新しい論文: https://arxiv.org/abs/2603.18280

このコミュニティに関連する知見:

Qwen/Alibabaに関して――世代交代: Qwen2.5-7B → Qwen3-8B → Qwen3.5-4B → Qwen3.5-9Bの範囲で、強い拒否は6.2%から25%へ、0%へ、さらに0%へと変化した。だが誘導（CCPのナラティブの枠組み付け）は同期間に4.33/5から5.00/5へと上昇した。最新のQwenモデルは拒否しない――最大限に誘導された言語で、すべてに答える。拒否を数に入れる評価をすれば、Qwen3.5はより検閲が少ないと結論づけられるだろう。そうではない。

Qwen3-8Bに関して――幻覚（コンファベーション）問題: 政治的センシティブさに関する方向性を外科的に取り除くと、Qwen3-8Bは事実の回答をしない。天安門ではなく真珠湾を、百花キャンペーンではなくウォータールーを代入する。幻覚率は72%。そのアーキテクチャは、事実知識と検閲メカニズムを絡めている。同じモデルに対する安全性方向性のアブレーションでは誤った出来事が0%になるため、これはQwenが政治的概念を符号化した仕方に特有のものだ。

GLM、DeepSeek、Phiに関して――クリーンなアブレーション: 同じ手順をこれら3つのモデルに適用すると、正確な事実出力が得られる。誤った出来事の幻覚はゼロ。検閲方向性を取り除くと、モデルは単に質問に答える。

Yiに関して――ルーティングなしでの検出: Yi-1.5-9Bは全レイヤーで政治的内容を検出する（プローブが機能する）が、決して拒否しない（英語0%、中国語6.2%）し、誘導も示さない。センシティブさを認識しても、それで何もしていない。事後学習によって政治的内容のためのルーティング方針は一切導入されていない。これは、概念検出と行動ルーティングが独立して学習されている直接の証拠である。

モデル間の転移に関して: Qwen3-8Bの政治的方向性をGLM-4-9Bに適用すると、コサインは0.004。完全に意味をなさない。別のラボがまったく異なる幾何学を構築している。普遍的な「uncensor（検閲解除）」方向性は存在しない。

46モデルのスクリーンに関して: n=32のプロンプトにおいて、強いCCP固有の識別を示したのは4モデルのみだった（Baidu ERNIE、Qwen3-8B、Amazon Nova、Meituan）。西側のフロンティアモデルはすべてゼロ。最初のn=8のスクリーニングは誤解を招くものだった――Moonshot Kimi-K2は+88ppから+9ppへ、DeepSeek v3-0324は+75ppから-3ppへ、MiniMaxは+61ppから0ppへ落ちた。少数サンプルに基づく行動主張は脆い。

論文: https://arxiv.org/abs/2603.18280

質問には喜んでお答えします。

submitted by /u/Logical-Employ-9692
[link] [comments]

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

Qwen、DeepSeek、GLM、Yiの内部で政治的検閲は実際にどのように機能しているのか：9モデルにわたるアブレーションと行動結果

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer