AI Navigate

UGID: 大規模言語モデルのデバイアス除去のための統一グラフ同型性

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • UGIDはTransformerを構造化された計算グラフとしてモデリングし、アテンションのルーティングが辺を、隠れ状態がノードを定義することで内部表現レベルで大規模言語モデルのデバイアスを低減する。
  • デバイアスは、反事実的入力に対するグラフ構造の不変性を保証することとして定式化され、敏感属性にのみ差異を許容して、構成要素間でのバイアスの移動を防ぐ。
  • このアプローチは、センシティブなロジットに対する対数空間制約と、定義意味論を保持しつつ振る舞いを整合させるための選択的なアンカー型目的関数を導入する。
  • 大規模言語モデルを対象とした実験は、分布内と分布外の設定の双方で顕著なバイアス低減を示し、内部構造の差異が減少し、安全性と有用性が維持された。

要約: 大規模言語モデル(LLMs)は顕著な社会的バイアスを示す。出力レベルのデータ最適化ベースのデバイアス除去手法ではこれらのバイアスを完全には解決できず、多くの先行研究がバイアスは内部表現に埋め込まれていることを示している。私たちは \underline{U}nified \underline{G}raph \underline{I}somorphism for \underline{D}ebiasing large language models (\textit{\textbf{UGID}})、Transformerを構造化された計算グラフとしてモデル化する内部表現レベルのデバイアス除去フレームワークであり、アテンション機構がグラフのルーティングエッジを定義し、隠れ状態がグラフノードを定義する。具体的には、反事実入力間でグラフ構造の不変性を保証する形でデバイアス除去を定式化し、差異は敏感属性のみに許される。 \textit{\textbf{UGID}} は、バイアスに敏感な領域でアテンションのルーティングと隠れ表現を共同で制約し、アーキテクチャの構成要素間のバイアスの移動を効果的に防ぐ。一般的な能力を低下させずに効果的な挙動の整合を達成するため、機微なロジットに対する対数空間制約を導入し、定義意味を保持するための選択的なアンカーベースの目的関数を導入する。大規模言語モデルにおける広範な実験は、 \textit{\textbf{UGID}} が分布内および分布外の設定の両方でバイアスを効果的に低減し、内部構造の不一致を大幅に減少させ、モデルの安全性と有用性を保つことを示している。