AI Navigate

SteerRM: スパースオートエンコーダを用いた報酬モデルのデバイアス低減

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • SteerRMは、推論時にスパースオートエンコーダ(SAE)介入を適用してバイアス特徴を抑制し、報酬モデルのデバイアスを排除するトレーニング不要の手法を導入します。
  • 対照的なペア応答に基づく強さ-安定性基準を用いてバイアス関連のSAE特徴を特定し、表面的な文体的手掛かりを標的に抑制できるようにします。
  • この手法は、RM-Bench上の6つの報酬モデルでHard-split精度を平均7.3ポイント向上させつつ全体パフォーマンスを維持し、GemmaベースのRMや他のバイアスタイプにも一般化します。
  • 結果は、形式に関連するバイアス特徴が浅い層に集中しており、モデル間で転移することを示唆し、共通のアーキテクチャレベルのバイアスエンコードパターンが存在することを示します。
  • SteerRMは再訓練を伴わない実用的で解釈可能なアライメント・パイプラインを提供し、RMシステムにおけるデバイアスの展開時の負担を軽減します。

要旨: 報酬モデル(RMs)はアラインメント・パイプラインの重要な構成要素ですが、表面的な文体的手掛かりに偏っており、意味的に優れている応答よりも、見栄えの良い応答を選好します。既存のデバイアス除去手法は通常、再学習やアーキテクチャの変更を必要としますが、直接の活性化抑制は表現の絡み合いのため性能を低下させます。我々は SteerRM を提案します。Sparse Autoencoder(SAE)ベースの介入を用いて報酬モデルのデバイアスを除去する初のトレーニング不要手法です。SteerRM は対比的なペア応答を用いて文体的効果を分離し、強さ-安定性基準を用いてバイアス関連の SAE 特徴を特定し、推論時にそれらを抑制します。RM-Bench の6つの報酬モデルにおいて、SteerRM は全体の性能を維持しつつ、Hard-split 精度を平均7.3ポイント改善します。Gemmaベースの報酬モデルおよびフォーマット以外のバイアスを制御した結果は、RM アーキテクチャとバイアスのタイプを横断する一般化をさらに示唆します。さらに、フォーマット関連の特徴は浅い層に集中し、モデル間で転移することがわかり、アーキテクチャレベルで共有されるバイアスの符号化パターンを明らかにします。これらの結果は、SAEベースの介入が再学習なしで報酬モデルのバイアスを緩和できることを示しており、アラインメント・パイプラインに対して実用的で解釈可能な解決策を提供します。