Abstract
基盤モデルの標準的なフェアネス監査は、モデルが偏っていることを定量化しますが、ネットワーク内部のどこに偏りが存在するかを特定することはできません。我々は、射影残差ストリーム分解、ゼロショット概念活性ベクトル、バイアス増強TextSpan分析を組み合わせた機械論的なフェアネス監査を提案し、ビジョン・トランスフォーマーの個々のアテンションヘッドレベルでデモグラフィックなバイアスを特定します。実現可能性のケーススタディとして、このパイプラインをFACETベンチマークの42職業クラスのCLIP ViT-L-14エンコーダに適用し、性別と年齢のバイアスを監査します。性別については、パイプラインは最終層の4つのヘッドを同定し、それらをアブレーションするとグローバルなバイアスが低下し、精度はわずかに改善します(Cramer's V: 0.381 → 0.362);層をマッチさせたランダムコントロールは、この効果が同定されたヘッドに特異的であることを確認します。最もステレオタイプ化されたクラスでは、最終層の1つのヘッドがバイアス低減の大半に寄与し、クラスレベルの分析は修正された予測が正しい職業へとシフトすることを示します。年齢については、同じパイプラインが候補ヘッドを特定しますが、アブレーションはより弱く一貫性がなく、年齢バイアスはこのモデルでは性別バイアスよりも拡散的にエンコードされていることを示唆します。これらの結果は、ヘッドレベルのバイアス局在化が識別的なビジョンエンコーダに対して実現可能であり、局在の程度は保護された属性ごとに異なる可能性があることの予備的な証拠を提供します。キーワード: バイアス ・ CLIP ・ 機械論的解釈性 ・ ビジョン・トランスフォーマー ・ 公正性




