フレームワーク(表現)レベルでの基盤モデルにおけるバイアス低減の評価

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エンコーダのみおよびデコーダのみの基盤モデルにおいて、バイアス低減手法が埋め込み空間の幾何(geometry)をどのように変化させるかを、表現の変化を分析することで検討する。
  • BERTとLlama2を代表的なアーキテクチャとして用い、ベースラインとバイアス低減版を比較し、性別と職業(occupation)に関する語の結びつきのシフトを測定する。
  • 結果は、バイアス低減が性別–職業の不均衡を低減し、両モデルタイプにおいてより中立的でバランスの取れた内部表現をもたらすことを示している。
  • 著者らは、こうした表現の変化が解釈可能であり、脱バイアスの有効性を検証するための内部監査(internal audit)メカニズムとして機能し得ると主張する。
  • デコーダのみモデルのより広範な評価を可能にするため、本論文では、性別および職業に関する語を含む4,000件のシーケンスからなるデータセット「WinoDec」を導入し、公に公開する。

概要: 本研究では、エンコーダーのみおよびデコーダーのみの基盤モデルにおいて、バイアス緩和が埋め込み空間をどのように再形成するのかを調査し、表象(レプレゼンテーション)分析によってモデル挙動の内部監査を提供します。代表的なアーキテクチャとしてBERTとLlama2を用い、モデルのベースライン版とバイアス緩和版を比較することで、性別と職業に関する語の間の関連性の変化を評価します。結果として、バイアス緩和は埋め込み空間における性別—職業の不均衡を低減し、より中立的でバランスの取れた内部表現をもたらすことが示されました。これらの表象変化は両方のモデル種別で一貫しており、公平性の改善が解釈可能で幾何学的な変換として現れ得ることを示唆します。本結果は、埋め込み分析を、基盤モデルにおけるデバイアス手法の有効性を理解し、検証するための価値ある手段として位置付けるものです。さらにデコーダーのみモデルの評価を促進するために、性別および職業の語を含む4,000のシーケンスからなるデータセットWinoDecを導入し、一般公開します。 (https://github.com/winodec/wino-dec)