報酬モデルの脱バイアスを因果的に動機づけられた推論時介入で行う
arXiv cs.CL / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- LLMのアライメントにおいて重要な役割を担う報酬モデル(RM)は、応答の長さなどの紛らわしい(スプリアスな)特徴に敏感になりがちで、推論時の既存対策は長さにのみ焦点を当てるため全体としての性能にトレードオフが生じることがあります。
- 本論文では、因果的に動機づけられた推論時介入として、事前に定義したバイアス属性と強く相関するニューロンを特定し、そのニューロンの活性を抑制する手法を提案します。
- RMベンチマークでの評価により、複数のバイアスタイプにわたってスプリアス特徴への感度が低減される一方で、性能低下(トレードオフ)を生じないことが示されます。
- 嗜好(preference)注釈の用途では、介入がRM全体のニューロンの2%未満にとどまる2B/7Bの小型RMを用いることで、AlpacaEvalとMT-Benchにおいて、最先端の70B RMと同等レベルのアライメント性能が得られると報告されています。
- さらに解析から、バイアス信号は主に初期層のニューロンに符号化されていることが示され、RM内部でバイアスがどのように悪用されるかの理解につながる知見が得られます。




