Abstract
すべてのRLHF学習済み言語モデルは報酬モデルによって形作られるが、機械論的解釈可能性のツールキット――対数itレンズ(logit lens)、直接対数it帰属(direct logit attribution)、アクティベーションパッチング、スパースオートエンコーダ(sparse autoencoders)――は、すべてのプリミティブが語彙アンベッディングに射影するような、生成型LLMのために構築されてきた。報酬モデルはそれをスカラー回帰ヘッドに置き換えるため、それぞれのツールが壊れてしまう。私たちは、報酬レンズ(reward-lens)と呼ぶオープンソースライブラリを提示する。このライブラリは、報酬モデルへこのツールキットを移植し、次の1つの観察に整理されている:報酬ヘッドの重みベクトル w_r は、あらゆる解釈可能性の問いに対する自然な軸である。このライブラリは、報酬レンズ、コンポーネント帰属、3モードのアクティベーションパッチング、報酬ハッキングのプローブ・スイート、TopK SAE特徴帰属、モデル間比較、そして5つの理論に基づく拡張(歪み指数(distortion index)、発散を考慮したパッチング(divergence-aware patching)、ミスアライメント・キャスケード検出(misalignment cascade detection)、報酬項の競合分析(reward-term conflict analysis)、概念ベクトル分析(concept-vector analysis))を提供する。10手法のアダプタ・プロトコルは、Llama、Mistral、Gemma-2、ArmoRMのマルチ目的ヘッドをカバーし、あらゆるHuggingFaceのシーケンス分類モデル向けの汎用アダプタも用意している。私たちは、約695のRewardBenchペアにわたる2つのプロダクション報酬モデルで検証を行う。中心となる経験的な発見は否定的である:線形帰属は因果的パッチング効果を予測しない(Skyworkでの平均Spearman
ho = -0.256、ArmoRMでの -0.027)。この枠組みは、この不一致を「バグ」ではなく「露出させるべき性質」として扱う。観測的見方と因果的見方を第一級として維持し、直接比較可能にする設計が動機づけられる。