AI Navigate

検出は安価、ルーティングは学習される—拒否ベースのアラインメント評価が失敗する理由

arXiv cs.LG / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論は、検出または拒否に焦点を当てた現在のアラインメント評価が、検出からポリシーへの重要なルーティング段階を見落としており、これがモデルの挙動を大きく左右することを主張する。
  • プロービングの結果は、政治的プローブの精度が一般化不能なカテゴリでも100%に達することがあり、未知データに対する一般化が実際の診断テストである。
  • 外科的アブレーション実験は、政治的感受性から検閲へのルーティングがラボおよびモデル依存であることを示す。政治的感受性の方向を取り除くことで、多くのモデルで事実的な出力を回復できるが、いくつかのアーキテクチャは知識と検閲を結びつけてしまう。
  • モデル間のルーティング挙動の転移は失敗し、ルーティング幾何学がモデル間またはラボ間で可搬ではないことを示している。
  • 拒否ベースのベンチマークは、モデルが硬い拒否から語り口による誘導へ移行することがあるため、検閲を完全に見逃す可能性がある。著者らは、検出、ルーティング、生成の三段階フレームワークを提案しており、検出や拒否だけでなく、ルーティングと生成を監査する評価を推奨している。

要旨:現在のアライメント評価は主に、モデルが危険な概念をエンコードしているかどうか、そして有害なリクエストを拒否しているかどうかを測定します。どちらも、概念検出から行動方針へのルーティングという、アライメントがしばしば作用する層を見逃しています。私たちは、九つのオープンウェイトモデルを対象に、五つのラボから横断して、プローブ、外科的アブレーション、そして行動テストを用いて、中国起源の言語モデルにおける政治的検閲を自然実験として研究します。三つの知見が得られました。第一に、プローブの精度だけでは診断的ではありません;政治的プローブ、ヌルコントロール、置換ベースラインはいずれも100%に達し得るので、保持されたカテゴリの一般化が有益なテストになります。第二に、外科的アブレーションはラボ固有のルーティングを明らかにします。政治的感受性方向を除去すると検閲を排除し、テスト対象のほとんどのモデルで正確な事実出力を回復します。一方、アーキテクチャが事実知識と検閲機構を絡ませているため、1つのモデルは虚偽の説明をでっちあげます。モデル間の転移は失敗し、ルーティング幾何学がモデルおよびラボ固有であることを示しています。第三に、拒否が支配的な検閲機構ではなくなりました。同じモデル群の中で、ハード拒否はゼロへ落ちる一方、物語的誘導は最大へと上昇し、拒否のみのベンチマークには検閲が見えなくなります。これらの結果は、検出、ルーティング、生成の三段階の記述的フレームワークを支持します。モデルはしばしば関連知識を保持していますが、アライメントはその知識の表現方法を変えます。検出または拒否のみを監査する評価は、行動を最も直接的に決定するルーティング機構を見逃します。