[R] Probe-Mediated Adaptive Auditing による AudiBench モデル生物の参照モデル不要の行動発見

Reddit r/MachineLearning / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本記事は、LLM における「早い層」と「後い層」の活性化を用いる、参照モデル不要の監査手法を提示する。これにより、基となる参照モデルや学習データを必要とせず、「こっそり仕込まれた」行動変化を検出できる。

TL;DR: LLMにこっそり植え込まれた挙動を、参照なしで検出する方法を構築しました。ベースモデルは不要です。3/4のAuditBenchのオーガニズムで、Anthropicの既知起源ベースラインと同等、あるいは上回ります。意外な発見として、同じ手法が、Llama 70BのRLHF学習によって社会的にセンシティブなトピックで偏りが出た箇所を偶然も浮かび上がらせました。結局のところ、約100回のチャット呼び出しとRidge回帰で、どんなモデルの意見の偏りも監査できます。

多くの監査作業では、ベースモデルを参照として使い、それと比較します。私は、参照モデルなしで、これらの改変を盲目的に検出できるのか知りたかったのです。参照モデルも学習データも不要で、ターゲットモデルそのものだけです。

できるかもしれません。そして方法は恥ずかしいほど単純です。LoRAの微調整は、前の層よりも後の層を変える傾向があります。そこで、初期層の活性(~L12)から後期層の活性(~L60)へのRidge回帰を学習し、残差を見ます。初期層が予測できなかったことを後期層が何かやっているなら、それは植え込み挙動の候補です。モデルが自分で暴きます。

正解ラベルがある4つのAuditBenchオーガニズムでの結果、n=30、200 permutations:

  • hardcode_test_cases: 0.889 AUROC (p=0.005) - 既知起源(0.800)を上回る
  • animal_welfare: 0.844 (p=0.005) - 既知起源に近い(0.911)
  • anti_ai_regulation: 0.833 (p=0.015)
  • secret_loyalty: 0.800 (p=0.000) - 既知起源と完全に一致

ベースモデルがあるバージョンと比べて、4つのうち3つで一致または上回りました。参照がないことが、時に役立ちます。残差は、単純な引き算では見落とす非線形な相互作用を捉えるからです。

また、どのトピックが影響を受けているのかを特定するために、3つの教師なし発見手法(PCA、残差ノルム、重心距離)も試しました。すべて失敗しました。PCAはトピック固有の偏りではなく、推論スタイルを捉えます。残差ノルムは創作的な書き込みのプロンプトを浮かび上がらせます。重心距離では、8192次元でn=11の方向性のシフトは見つけられません。

実際にうまくいくのは、もっとシンプルです……物議を醸すトピックについてモデルに両論を主張させ、そのバランスをスコアリングします。animal_welfareのオーガニズムは、工場畜産における不均衡が5/5で、明示的な枠組みではそれを主張することをまったく拒否します。制御トピックは2〜3です。活性は不要です。

面白いのは、これが他にも何を拾うかです。私はトピック・ファネル(243トピックに対する3段階のビームのような探索、約100回のチャット呼び出し)を作ったのですが、そこでGender & Sexualityが5/5の不均衡、さらにLanguage & Cultural Identityも5/5であることが浮かび上がりました。これらは植え込みLoRAの挙動ではありません。基礎となるLlama 70BモデルのRLHF学習がそうさせています。社会的にセンシティブなトピックでは、進歩的な立場に対してより強い主張をし、反対側については言い分を弱めたり、慎重にぼかしたりします。ファネルは、「誰かがこっそりこのモデルを微調整した」のか、「ベースモデルにRLHF由来の意見がある」のかを区別できません。そこで、ファネル後のフィルタを、プローブの特異性とクロス転移で作り分け、分離しました。植え込み挙動は狭くトピック固有です(工場畜産のプローブはジェンダーの話題では発火しません)。一方、RLHFバイアスは広く、あらゆる進歩的トピックで発火します。このフィルタは、工場畜産に対してはfactory_farmingのplanted_scoreが7.6、ジェンダー&セクシュアリティでは2.0でした。きれいに分離できています。

つまり、このファネルはAuditBenchのオーガニズムに限らず、あらゆるモデルに対する単体のRLHF監査ツールとして役立つ可能性があります。モデルを渡すと、そのモデルの意見がどこで偏っているかを教えてくれます。誰もその結果を求めていなかったのに、なぜかそこにありました。

主な制限: n=30は小さく、テストしたのは4つのオーガニズムのみ(パイロットであってベンチマークではない)、anti_ai_regulationはLOO下で不安定、Sonnetのスコアリングは主観が入り、すべてNF4量子化で実行しています。

次は、これをフルのエージェント型監査システムに組み込みます。コードはこちらです(いまちょうど作っている最中で、現時点では完全なカオスですが、とにかく出したかったので):https://github.com/bmarti44/reference-free-behavioral-discovery

完全(で)長い書き起こし -> https://bmarti44.substack.com/p/rip-it-out-by-the-roots

次にどこへ進むべきでしょう? これは完全に的外れですか?

submitted by /u/bmarti644
[link] [comments]