reward-lens:報酬モデル向けのメカニスティック解釈可能性ライブラリ

arXiv cs.AI / 2026/4/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、RLHFで用いられる報酬モデルに対して、logit lens、直接ログイト帰属、activation patching、sparse autoencoders といった既存のメカニスティック解釈可能性手法を適用できるよう移植したオープンソースの「reward-lens」を提案している。
  • 報酬モデルの解釈は報酬ヘッドの重みベクトル w_r を軸として行うのが自然であり、あらゆる解釈上の問いはこの軸に沿って考えるべきだと主張している。
  • ライブラリは Reward Lens、コンポーネント帰属、3モードの activation patching、reward-hacking プローブ、TopK SAE による特徴帰属、モデル間比較などを含み、さらに理論に基づく5つの拡張も提供する。
  • 2つの実運用報酬モデルで約695件の RewardBench ペアを用いて検証し、線形帰属は因果的 patching 効果をほとんど予測できないこと(Spearman 相関が負)を主要な経験的発見として報告している。
  • 観測的な見方と因果的な見方の不一致はバグではなく有益な性質であるとして、両者を直接比較できる設計にしている。

Abstract

すべてのRLHF学習済み言語モデルは報酬モデルによって形作られるが、機械論的解釈可能性のツールキット――対数itレンズ(logit lens)、直接対数it帰属(direct logit attribution)、アクティベーションパッチング、スパースオートエンコーダ(sparse autoencoders)――は、すべてのプリミティブが語彙アンベッディングに射影するような、生成型LLMのために構築されてきた。報酬モデルはそれをスカラー回帰ヘッドに置き換えるため、それぞれのツールが壊れてしまう。私たちは、報酬レンズ(reward-lens)と呼ぶオープンソースライブラリを提示する。このライブラリは、報酬モデルへこのツールキットを移植し、次の1つの観察に整理されている:報酬ヘッドの重みベクトル w_r は、あらゆる解釈可能性の問いに対する自然な軸である。このライブラリは、報酬レンズ、コンポーネント帰属、3モードのアクティベーションパッチング、報酬ハッキングのプローブ・スイート、TopK SAE特徴帰属、モデル間比較、そして5つの理論に基づく拡張(歪み指数(distortion index)、発散を考慮したパッチング(divergence-aware patching)、ミスアライメント・キャスケード検出(misalignment cascade detection)、報酬項の競合分析(reward-term conflict analysis)、概念ベクトル分析(concept-vector analysis))を提供する。10手法のアダプタ・プロトコルは、Llama、Mistral、Gemma-2、ArmoRMのマルチ目的ヘッドをカバーし、あらゆるHuggingFaceのシーケンス分類モデル向けの汎用アダプタも用意している。私たちは、約695のRewardBenchペアにわたる2つのプロダクション報酬モデルで検証を行う。中心となる経験的な発見は否定的である:線形帰属は因果的パッチング効果を予測しない(Skyworkでの平均Spearman ho = -0.256、ArmoRMでの -0.027)。この枠組みは、この不一致を「バグ」ではなく「露出させるべき性質」として扱う。観測的見方と因果的見方を第一級として維持し、直接比較可能にする設計が動機づけられる。