Alignment Reduces Expressed but Not Encoded Gender Bias: A Unified Framework and Study
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、同一の中立プロンプトを用いて、LLMの出力に「表出(expressed)」されるジェンダーバイアスと、内部表現に「符号化(encoded)」されているジェンダー情報を比較する統一的な評価フレームワークを導入する。
- このプロトコルにより、潜在的(内部)なジェンダー情報と表出されるバイアスの間に一貫した関係があることを著者らが報告し、先行研究で見られた弱い、または一貫しない相関の問題に対処する。
- 表出の抑制(de-biasing)については、アラインメントのための教師ありファインチューニングを調査し、内部表現におけるジェンダー関連の結びつきが残存していても、アラインメントによって表出されるバイアスは減少し得ることを示す。
- 残存する内部のジェンダー関連は、敵対的プロンプトによって再活性化できることから、学習された表現からジェンダー信号を完全に除去できない可能性が示唆される。
- 物語生成など、より現実的な設定での結果からは、構造化ベンチマークで観察された低減が、実際の利用シナリオへ一般化しない可能性が示される。