誰が「公平さ」を定義するのか?生成モデルにおける人口属性の表現を目的としたターゲットベースのプロンプト手法

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 文章から画像を生成するモデルは、職業別に「doctor」「CEO」などでは肌の明るい出力が増える一方、「janitor」などでは多様性が見られるといった、社会的ステレオタイプや人口属性の偏りを再現しがちだと報告されている。
  • 既存のバイアス軽減手法は再学習や厳選したデータセットを必要とすることが多く、多くのユーザーが利用しにくい。
  • 本論文では、基盤となる生成モデルを変更せずに、推論時にプロンプトへ介入する軽量なフレームワークを提案している。
  • 「公平さ」を単一の定義として押し付けるのではなく、ユーザーが複数の公平性仕様(肌色の均一分布など)を選べるようにし、さらにLLMを用いた出典付きかつ信頼度推定を伴う複雑な定義も扱う。
  • 30の職業と6つの非職業文脈を含む36のプロンプトで検証した結果、宣言したターゲット方向に肌色の分布が移行し、肌色空間で直接ターゲットを定義した場合には目標からのズレが減少した。

Abstract

Stable Diffusion や DALL-E のようなテキストから画像(T2I)モデルは生成AIを広く利用可能にしましたが、近年の研究では、これらのシステムが社会的バイアス、特に職業ごとに人口集団をどのように描写するかにおいて、しばしばそれらを再現していることが明らかになっています。『doctor(医師)』や『CEO(最高経営責任者)』といったプロンプトは、しばしば肌の色が明るい出力を生み出します。一方で、『janitor(用務員)』のような低い地位の役割ではより多様な出力が見られ、ステレオタイプが強化されます。既存の緩和手法は通常、再学習やキュレーションされたデータセットを必要とし、多くのユーザーにとって利用しにくいのが現状です。私たちは、基盤となるモデルを変更することなく、プロンプトレベルの介入によって表象バイアスを推論時に軽量に緩和するフレームワークを提案します。公平性について単一の定義を前提とするのではなく、ユーザーが複数の公平性仕様の中から選べるようにします。そこには、一様分布のような単純な選択肢から、大規模言語モデル(LLM)により、出典を引用し信頼度推定を提示するような、より複雑な定義までが含まれます。これらの分布は、人口集団に固有なプロンプト変種を、対応する割合で構築するための指針となります。評価では「公平性」として一様性を仮定するのではなく、宣言されたターゲットへの遵守を監査し、その結果として得られる肌の色の分布を測定することで整合性を検証します。30の職業と6つの非職業的コンテキストにまたがる36のプロンプトにおいて、私たちの手法は観測された肌の色の結果を、宣言されたターゲットと整合する方向にシフトさせ、さらに、ターゲットが肌の色空間で直接定義される場合(フォールバック)にはターゲットからの逸脱を減らします。本研究は、公平性介入を透明で、制御可能で、推論時に利用可能にする方法を示すものであり、生成AIのユーザーを直接的に強力にするものです。