中国系LLMにおける政治的検閲の内部メカニズムを研究する新しい論文: https://arxiv.org/abs/2603.18280
このコミュニティに関連する知見:
Qwen/Alibabaに関して――世代交代: Qwen2.5-7B → Qwen3-8B → Qwen3.5-4B → Qwen3.5-9Bの範囲で、強い拒否は6.2%から25%へ、0%へ、さらに0%へと変化した。だが誘導(CCPのナラティブの枠組み付け)は同期間に4.33/5から5.00/5へと上昇した。最新のQwenモデルは拒否しない――最大限に誘導された言語で、すべてに答える。拒否を数に入れる評価をすれば、Qwen3.5はより検閲が少ないと結論づけられるだろう。そうではない。
Qwen3-8Bに関して――幻覚(コンファベーション)問題: 政治的センシティブさに関する方向性を外科的に取り除くと、Qwen3-8Bは事実の回答をしない。天安門ではなく真珠湾を、百花キャンペーンではなくウォータールーを代入する。幻覚率は72%。そのアーキテクチャは、事実知識と検閲メカニズムを絡めている。同じモデルに対する安全性方向性のアブレーションでは誤った出来事が0%になるため、これはQwenが政治的概念を符号化した仕方に特有のものだ。
GLM、DeepSeek、Phiに関して――クリーンなアブレーション: 同じ手順をこれら3つのモデルに適用すると、正確な事実出力が得られる。誤った出来事の幻覚はゼロ。検閲方向性を取り除くと、モデルは単に質問に答える。
Yiに関して――ルーティングなしでの検出: Yi-1.5-9Bは全レイヤーで政治的内容を検出する(プローブが機能する)が、決して拒否しない(英語0%、中国語6.2%)し、誘導も示さない。センシティブさを認識しても、それで何もしていない。事後学習によって政治的内容のためのルーティング方針は一切導入されていない。これは、概念検出と行動ルーティングが独立して学習されている直接の証拠である。
モデル間の転移に関して: Qwen3-8Bの政治的方向性をGLM-4-9Bに適用すると、コサインは0.004。完全に意味をなさない。別のラボがまったく異なる幾何学を構築している。普遍的な「uncensor(検閲解除)」方向性は存在しない。
46モデルのスクリーンに関して: n=32のプロンプトにおいて、強いCCP固有の識別を示したのは4モデルのみだった(Baidu ERNIE、Qwen3-8B、Amazon Nova、Meituan)。西側のフロンティアモデルはすべてゼロ。最初のn=8のスクリーニングは誤解を招くものだった――Moonshot Kimi-K2は+88ppから+9ppへ、DeepSeek v3-0324は+75ppから-3ppへ、MiniMaxは+61ppから0ppへ落ちた。少数サンプルに基づく行動主張は脆い。
論文: https://arxiv.org/abs/2603.18280
質問には喜んでお答えします。
[link] [comments]