学術的推薦状におけるジェンダーの手がかりを特定し緩和する：解釈可能性に関する事例研究

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、TransformerエンコーダモデルおよびLLMが、明示的な識別子（氏名／代名詞）を削除しても、推薦状から応募者のジェンダーを推定できるかを検証する。
脱ジェンダー化にもかかわらず、分類器は顕著なジェンダー漏えい（gender leakage）を示し、最大68%の精度に達しており、推薦状にはジェンダーに関連する言語的パターンが依然として含まれていることが示唆される。
解釈可能性のアプローチ（TF-IDFおよびSHAP）により、これらのテキストにおけるジェンダーの強力な代理指標となる特定の語やテーマ（例：「emotional」「humanitarian」）が特定される。
検出された暗黙の手がかりを除去してよりジェンダー中立的な推薦状（LoR）を作成する試みでは、分類器の性能が最大で精度5.5%、マクロF1で2.7%低下するが、ジェンダー予測は依然として偶然より高い水準に留まる。
著者らは、モデルレベルの公平性手法の補完として、実際の推薦状作成ワークフローの上流で評価文（evaluative text）を監査することが必要だと主張している。