UGID: 大規模言語モデルのデバイアス除去のための統一グラフ同型性

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

UGIDはTransformerを構造化された計算グラフとしてモデリングし、アテンションのルーティングが辺を、隠れ状態がノードを定義することで内部表現レベルで大規模言語モデルのデバイアスを低減する。
デバイアスは、反事実的入力に対するグラフ構造の不変性を保証することとして定式化され、敏感属性にのみ差異を許容して、構成要素間でのバイアスの移動を防ぐ。
このアプローチは、センシティブなロジットに対する対数空間制約と、定義意味論を保持しつつ振る舞いを整合させるための選択的なアンカー型目的関数を導入する。
大規模言語モデルを対象とした実験は、分布内と分布外の設定の双方で顕著なバイアス低減を示し、内部構造の差異が減少し、安全性と有用性が維持された。

要約: 大規模言語モデル（LLMs）は顕著な社会的バイアスを示す。出力レベルのデータ最適化ベースのデバイアス除去手法ではこれらのバイアスを完全には解決できず、多くの先行研究がバイアスは内部表現に埋め込まれていることを示している。私たちは \underline{U}nified \underline{G}raph \underline{I}somorphism for \underline{D}ebiasing large language models (\textit{\textbf{UGID}})、Transformerを構造化された計算グラフとしてモデル化する内部表現レベルのデバイアス除去フレームワークであり、アテンション機構がグラフのルーティングエッジを定義し、隠れ状態がグラフノードを定義する。具体的には、反事実入力間でグラフ構造の不変性を保証する形でデバイアス除去を定式化し、差異は敏感属性のみに許される。 \textit{\textbf{UGID}} は、バイアスに敏感な領域でアテンションのルーティングと隠れ表現を共同で制約し、アーキテクチャの構成要素間のバイアスの移動を効果的に防ぐ。一般的な能力を低下させずに効果的な挙動の整合を達成するため、機微なロジットに対する対数空間制約を導入し、定義意味を保持するための選択的なアンカーベースの目的関数を導入する。大規模言語モデルにおける広範な実験は、 \textit{\textbf{UGID}} が分布内および分布外の設定の両方でバイアスを効果的に低減し、内部構造の不一致を大幅に減少させ、モデルの安全性と有用性を保つことを示している。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

UGID: 大規模言語モデルのデバイアス除去のための統一グラフ同型性

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer