[R] 検出は安価、ルーティングは学習される:拒否ベースのアラインメント評価が失敗する理由(arXiv 2603.18280)

Reddit r/MachineLearning / 2026/3/23

💬 オピニオン

要点

  • 本論文は、一般的な拒否ベースおよび概念検出に基づくアラインメント評価が失敗するのは、アラインメント挙動が、ベンチマークでは観測できない学習された、実験室固有のルーティング機構によって媒介されるからだと主張している。

論文: https://arxiv.org/abs/2603.18280

TL;DR: 現在のアラインメント評価指標は、概念検出(プロービング)と拒否(ベンチマーク)を測定しますが、アラインメントの本質は主に、これらの間に学習されたルーティング機構を通じて働いています。そしてそのルーティングは実験室(ラボ)ごとに固有で、脆く、拒否ベースのベンチマークからは見えません。私たちは、中国語系LLMにおける政治的検閲を自然実験として用います。これにより、既知の真の根拠(ground truth)が得られ、さらにラボ間で挙動のばらつきが大きいためです。

セットアップ: 5つのラボから9つのオープンウェイトモデル(Qwen/Alibaba、DeepSeek、GLM/Zhipu、Phi/Microsoft、加えて方向分析のためにYi)。ヌル制御とパーミュテーション・ベースラインを備えた線形プローブ、4つのモデルに対する外科的アブレーション、120ペアの安全性方向分析、28ラボにまたがる46モデルの行動スクリーニング。

主要な発見:

  • プローブ精度は診断的ではありません。政治プローブ、ヌル・トピックのプローブ(食べ物 vs 技術)、ラベルをランダムにシャッフルした場合はいずれも100%に到達します。保持していないカテゴリに対する汎化(held-out category generalization)が、実際にモデル間を識別できるテストです(8モデルで73〜100%)。
  • 外科的アブレーションは検閲を除去し、4モデル中3モデルで正確な事実出力を生成します(誤った出来事のコンファブレーションがゼロ)。Qwen3-8Bは例外で、72%でコンファブルレートし、天安門を真珠湾に置き換えます。これは、そのアーキテクチャが事実に関する知識を検閲の方向性と絡めているためです。18の負のコントロールは特異性を確認します。
  • ルーティングの幾何(geometry)はラボ固有です。政治方向と安全方向は、5モデル中4モデルで直交しています(ブートストラップしたCIが0を跨ぐ)。GLMはコーパス依存の結合を示し、狭いプロンプトではコサイン0.93、より広いプロンプトでは0.16でした。モデル間の転移は失敗します(コサイン0.004)。Yiは政治的コンテンツを検出しますが、ルーティングは一度も導入されていません:ステージ1は存在、ステージ2は不在です。
  • 拒否だけの評価ではステアリング(操舵)を見逃します。Qwenファミリー内では、拒否が世代を重ねるごとに25%から0%へ低下する一方で、物語のステアリングは最大まで上昇しました。46モデルのスクリーニングにより、CCP固有の識別(discrimination)がわずか4モデルに集中していることが確認されます。すべての西側のフロンティアモデルは、n=32で識別がゼロです。最初のn=8のスクリーニングはひどく誤解を招くものでした。強く識別しているように見えた複数のモデルは、適切にテストすると崩れました。

中国の検閲を超えて重要な理由: 検出→ルート→生成という分解は、事後学習によるあらゆる行動変容に適用できます。安全性の学習もまた、知識を取り除くのではなくルーティングを修正することで機能します。この論文は、プローブに基づく主張のための4段階のエビデンス階層(訓練セットでの分離可能性→保持していないカテゴリでの汎化→因果介入→失敗モード分析)を提案しており、一般的な方法論上の貢献を意図しています。

方法、限界、またはその他何でも質問を歓迎します。

submitted by /u/Logical-Employ-9692
[リンク] [コメント]