概要: 視覚と言語を結ぶモデル、CLIP のようなものは、マルチモーダルAIの重要な構成要素ですが、それらの大規模かつ未整理のトレーニングデータは、深刻な社会的および偽のバイアスを導入します。既存の事後デバイアス除去法は、しばしば密なCLIP埋め込み空間で直接動作し、バイアスとタスク関連情報が高度に絡み合っています。この絡み合いは、意味的忠実度を損なうことなくバイアスを除去する能力を制限します。本研究では Sparse Embedding Modulation (SEM) を提案します。これは Sparse Autoencoder (SAE) 潜在空間で動作する事後のゼロショットデバイアス除去フレームワークです。CLIP テキスト埋め込みを分離可能な特徴に分解することにより、SEM はバイアス関連ニューロンを同定・調整し、クエリ関連ニューロンを保持します。これにより、より精密で非線形な介入が可能になります。4つのベンチマークデータセットと2つのCLIPバックボーンを跨いで、SEM は検索とゼロショット分類において大幅な公平性の向上を達成します。我々の結果は、疎な潜在表現が視覚と言語モデルの事後デバイアンス除去に有効な基盤を提供することを示しています。
SEM: 視覚-言語モデルの事後デバイアス除去のためのスパース埋め込み変調
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は Sparse Embedding Modulation(SEM)を紹介する。これは CLIP のような視覚-言語モデルに対する事後的でゼロショットのデバイアス除去フレームワークであり、スパースオートエンコーダの潜在空間で動作する。
- SEM は CLIP のテキスト埋め込みをスパース成分に分解し、バイアス関連ニューロンを調整することで、バイアス関連特徴とクエリ関連特徴を分離する。
- この手法は非線形のデバイアス除去介入を可能にし、4つのベンチマークデータセットと2つの CLIP バックボーンにわたり、リトリーバル(検索)とゼロショット分類において顕著な公平性の改善を示している。
- 全体として、疎な潜在表現は、セマンティック忠実度を損なうことなく、視覚-言語モデルのデバイアス除去の有効な基盤を提供し得ることを示唆している。