プロセス報酬モデルによるデコーディング時デバイアス：制御された穴埋めから自由生成へ

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、再学習やファインチューニングを行わずに、生成時に候補トークンを探索することで大型言語モデルの社会的バイアスを抑制する「デコーディング時デバイアス」を提案する。
個別に用意したプロセス報酬モデル（PRM）が、公平性と流暢さの両面から候補を採点し、重み更新ではなくリランキング／批評・修正といったデコーディング戦略でバイアスを扱えるようにする。
候補選択（Best-of-N）、逐次的な批評と改訂（Sequential critique-and-revise）、憲法に基づく自己監査（Constitutional self-audit）という段階的に高度化する3つの手法を提示し、逐次デバイアスが基準より平均バイアス指標を最大+0.40改善しつつ、流暢さを維持（場合によっては改善）することが示される。
自由生成にも拡張し、各トークンを生成しながら随時デバイアスするほか、「Bias Guard」ゲートを導入して潜在的にバイアスを含む語に限って作動させ、適切に校正されたモデルでは計算オーバーヘッドを約2倍に抑える。
英語とウルドゥー語のベンチマーク（8つのバイアスカテゴリ）で4種類のモデルを評価した結果、この枠組みがモデル能力に応じてスケールすること、また小規模なオープンウェイトLLMがどこでつまずきやすいかが明確になる。

要旨: 大規模言語モデルは、学習データから社会的バイアスを取り込み、そのバイアスを下流のアプリケーションへ持ち込むことで、性別、人種、宗教、障害、年齢、そして社会経済的地位をめぐる固定観念をしばしば強化します。標準的な対策（厳選したデータで再学習する、あるいは人間のフィードバックで微調整する）は費用がかかり、モデルの重みへのアクセスが必要であり、他のタスクにおいてモデルの性能を低下させるリスクもあります。本論文では別のアプローチを取ります。すなわち、バイアス緩和を、候補トークンに対する構造化された探索として扱い、モデルの重みには一切触れずに、デコード時にモデルの脱バイアス化を行います。別個のプロセス報酬モデル（PRM）が審判として機能し、公平性と流暢さの両方の観点から各候補をスコアリングします。段階的に高度化した3つのスキーム（Best-of-N選択、逐次的な批評・修正、憲法的な自己監査）を設計し、8つのバイアスカテゴリをカバーする英語とウルドゥー語の200プロンプトによるバイリンガル・ベンチマーク上で4つのモデル（GPT-4o-mini、Llama 3.2 3B、Gemma 3 4B、Qwen 2.5 3B）を評価します。逐次的な脱バイアス化が最も効果的で、ベースラインに対して平均バイアススコアを最大 +0.40 引き上げつつ、流暢さを維持（場合によっては改善）します。さらに、3つすべてのスキームをオープンエンドの生成へ拡張し、そこで各トークンをその場で脱バイアス化するようにします。そして、軽量なBias Guardゲートを導入し、潜在的にバイアスが含まれる語の場合にのみ作動させることで、十分に調整されたモデルではオーバーヘッドを約2倍に抑えます。生成器コストと審判コストを分離する形式的なオーバーヘッド指標により、Best-of-Nはネイティブ実装では生成器側において事実上「無料」であることが明らかになります。強力なプロプライエタリなアンカーとして含めたGPT-4o-miniは、この枠組みがモデル能力に応じてスケールすることを確認します。一方、3つのオープンウェイトモデルでは、現在の小規模LLMがまだ苦手としている領域が示されます。