Self-Debias: 大規模言語モデルの脱バイアスのための自己修正
arXiv cs.CL / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMのチェーン・オブ・ソート推論における「バイアス伝播(Bias Propagation)」問題を特定している。ここでは、一度引き金が引かれると社会的バイアスが連鎖的に増幅し続ける可能性がある。
- 提案手法であるSelf-Debiasは、段階的で内在的な自己修正フレームワークであり、バイアスのかかったヒューリスティックから、バイアスのない推論経路へ確率質量を再配分する。
- 広範なペナルティに基づく嗜好最適化とは異なり、Self-Debiasは、細粒度の軌跡(trajectory)レベルの目的関数と動的な脱バイアス制約を用いて、正しい文脈の接頭辞は維持しつつ、バイアスのかかった推論の接尾辞を修正する。
- 本手法は、整合性フィルタリングによるオンラインの自己改善ループを備えており、監督信号を自動生成してより強い性能を実現する。外部の継続的な監視なしで、約20k件の注釈サンプルのみで効果を示す。
