学術的推薦状におけるジェンダーの手がかりを特定し緩和する:解釈可能性に関する事例研究
arXiv cs.LG / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、TransformerエンコーダモデルおよびLLMが、明示的な識別子(氏名/代名詞)を削除しても、推薦状から応募者のジェンダーを推定できるかを検証する。
- 脱ジェンダー化にもかかわらず、分類器は顕著なジェンダー漏えい(gender leakage)を示し、最大68%の精度に達しており、推薦状にはジェンダーに関連する言語的パターンが依然として含まれていることが示唆される。
- 解釈可能性のアプローチ(TF-IDFおよびSHAP)により、これらのテキストにおけるジェンダーの強力な代理指標となる特定の語やテーマ(例:「emotional」「humanitarian」)が特定される。
- 検出された暗黙の手がかりを除去してよりジェンダー中立的な推薦状(LoR)を作成する試みでは、分類器の性能が最大で精度5.5%、マクロF1で2.7%低下するが、ジェンダー予測は依然として偶然より高い水準に留まる。
- 著者らは、モデルレベルの公平性手法の補完として、実際の推薦状作成ワークフローの上流で評価文(evaluative text)を監査することが必要だと主張している。




