概要: 大規模言語モデル(LLM)が検索や情報検索を支援する用途でますます使われるようになるにつれ、内容をその元の著者に正確に帰属させることが重要になります。本研究では、初の「名声および人口統計においてバランスの取れた」引用帰属ベンチマークデータセットであるAttriBenchを導入します。著者の名声と人口統計を明示的にバランスさせることで、AttriBenchは引用帰属における人口統計的バイアスを統制された形で検証することを可能にします。このデータセットを用いて、さまざまなプロンプト設定の下で、広く使われている11のLLMを評価し、引用帰属が最先端モデルにとってさえ難しい課題であることを見出します。人種、性別、そして交差する属性間で、帰属精度に大きく体系的な隔たりがあることを観察します。さらに、抑制(suppression)を導入し、その失敗モードを調査します。抑制とは、モデルが著者情報にアクセスできているにもかかわらず、モデルが帰属をまったく省略してしまう、別個の失敗形態です。抑制は広く見られ、人口統計グループ間で不均等に分布していることを見出し、標準的な精度指標では捉えられていない体系的バイアスが明らかになりました。これらの結果は、引用帰属をLLMにおける表象の公平性(representational fairness)のためのベンチマークとして位置づけます。
大規模言語モデルにおける帰属バイアス
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、新たな引用文の著者帰属ベンチマークデータセット「AttriBench」を導入する。これは、著者の有名度と人口統計(デモグラフィック)の両方についてバランスを取ることで、帰属の公正性を管理された条件下で検討することを目的としている。
- さまざまなプロンプト設定のもとで、広く利用されている11のLLMを評価した結果、最先端モデルであっても引用文の著者帰属は依然として難しいことが示される。
- 本研究では、レース、性別、そして交差する人口統計グループ間で、大きく体系的な帰属精度の格差が存在することを見出している。
- 「抑制(suppression)」、すなわち、著者情報を持っているにもかかわらずモデルが帰属を完全に省略してしまう失敗モードを特定し、その分析を行う。さらに、この抑制は人口統計グループ間で不均等に、かつ一般的に起きることを示す。
- 著者らは、引用文の著者帰属を、表象(representational)における公正性のためのベンチマークとして提案し、標準的な精度指標では見落とされ得るギャップを強調している。


