スコア終端におけるバイアス

arXiv cs.CV / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • リワードモデル(RM)は本質的に中立ではない関数として説明されており、テキストから画像へのパイプラインにおいて、フィルタリング、評価、最適化のためのガイダンス、安全性・品質のスコアリングなどに広く用いられている。
  • 本研究では、RMのロバスト性について大規模な監査を行い、その結果、品質の測定を超えて、RMが人口統計的なバイアスをエンコードしていることを明らかにした。
  • 著者らは、リワードに導かれる最適化によって、女性の被写体が性的に描写されることがあり、ジェンダーや人種のステレオタイプが強化され、人口統計的な多様性が低下し得ると報告している。
  • これらの結果は、現在のRMがスコアリング関数として信頼できる公平性やロバスト性を備えていないことを示唆しており、T2Iシステムにおける品質指標としての有用性を損なっている。
  • 本論文は、生成時によりロバストで衡平なスコアリングを提供できるリワードモデルを構築するために、データ収集と訓練手順の改善を求めている。

要旨: 報酬モデル(RM)は本質的に中立ではない価値関数であり、人間の嗜好やテキストと画像の整合などの特定の目的を符号化するよう設計・訓練されます。RMは、テキスト・ツー・イメージ(T2I)生成システムの重要な構成要素となっており、データセットのフィルタリング、評価指標として、パラメータ最適化の際の監督信号として、さらに生成後の安全性および品質のフィルタリングとして、さまざまな段階で用いられています。T2IパイプラインへのRMの統合に関しては、(たとえばリワード・ハッキングやモード崩壊など)特定の問題が研究されてきましたが、スコア関数としての頑健性と公正性は、ほとんど未解明のままです。本研究では、T2Iモデルの学習および生成における人口統計(デモグラフィック)バイアスに対するRMの頑健性について、大規模な監査を行います。品質の測定手段として当初開発されたにもかかわらず、RMが人口統計上のバイアスを符号化しており、その結果として報酬に導かれる最適化が女性の画像被写体を不釣り合いに性的に描写し、ジェンダー/人種の固定観念を強化し、人口統計的な多様性が崩壊することを、定量的および定性的な証拠によって示します。これらの発見は、現在の報酬モデルの欠点を浮き彫りにし、品質指標としての信頼性に疑問を投げかけるとともに、より頑健なスコアリングを可能にするためのデータ収集および訓練手順の改善が必要であることを強調します。