Self-Debias: 大規模言語モデルの脱バイアスのための自己修正

arXiv cs.CL / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのチェーン・オブ・ソート推論における「バイアス伝播(Bias Propagation)」問題を特定している。ここでは、一度引き金が引かれると社会的バイアスが連鎖的に増幅し続ける可能性がある。
  • 提案手法であるSelf-Debiasは、段階的で内在的な自己修正フレームワークであり、バイアスのかかったヒューリスティックから、バイアスのない推論経路へ確率質量を再配分する。
  • 広範なペナルティに基づく嗜好最適化とは異なり、Self-Debiasは、細粒度の軌跡(trajectory)レベルの目的関数と動的な脱バイアス制約を用いて、正しい文脈の接頭辞は維持しつつ、バイアスのかかった推論の接尾辞を修正する。
  • 本手法は、整合性フィルタリングによるオンラインの自己改善ループを備えており、監督信号を自動生成してより強い性能を実現する。外部の継続的な監視なしで、約20k件の注釈サンプルのみで効果を示す。

Abstract

大規模言語モデル(LLM)は目覚ましい推論能力を示す一方で、本質的な社会的バイアスがしばしばChain-of-Thought(CoT)プロセス全体に連鎖的に波及し、その結果「バイアス・プロパゲーション(Bias Propagation)」が継続的に起こります。既存の脱バイアス手法は主に、静的な制約や外部からの介入に焦点を当てており、いったん発火したこの伝播を検出して中断することはできていません。この制限に対処するため、我々は内在的な自己修正能力を身につけさせることを目的とした、漸進的(progressive)フレームワーク「Self-Debias(自己脱バイアス)」を導入します。具体的には、脱バイアスのプロセスを、戦略的な資源再配分問題として再定式化し、モデルの出力確率の質量を、バイアスのかかったヒューリスティックからバイアスのない推論経路へと再配分される限られた資源として扱います。従来の選好最適化(preference optimization)が広範な罰則を適用するのに対し、Self-Debiasは、動的な脱バイアス制約のもとで、よりきめ細かな軌跡(trajectory)レベルの目的関数を用います。これにより、モデルは妥当な文脈上の接頭辞(contextual prefixes)を保持したまま、バイアスのかかった推論の接尾辞(reasoning suffixes)を選択的に改訂できるようになります。さらに我々は、一貫性(consistency)フィルタリングを用いたオンラインの自己改善メカニズムを統合し、自律的に監督(supervision)信号を合成します。注釈付きサンプルがわずか20k件であるにもかかわらず、Self-Debiasは効率的な自己修正を発動し、継続的な外部監視を行わずに推論能力を維持したまま、より優れた脱バイアス性能を達成します。