グループ間バリセントル整合によるフェアなデータセット蒸留

arXiv cs.AI / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文はデータセット蒸留を調査し、予測パターンが異なることで、複数のサブグループすべてに対して有用な信号を同時に保持することが難しくなることを示します。
  • グループの人数が軽度でも重度でも不均衡である場合にかかわらず、一部のサブグループで性能低下(それに伴う公平性ギャップ)が生じ得ることが明らかにされます。
  • 著者らは、公平性ギャップは単にグループ不均衡を是正しても解消されないと主張し、それがサンプル数の偏りではなくサブグループ間の予測パターンの根本的な不一致に由来するためだと説明します。
  • 解決策として、グループ不均衡に依存しない「予測情報のバリセントル」を見つけ、サブグループ間で共通の集約表現が得られるように蒸留する枠組みを提案します。
  • 実験では、既存の蒸留手法と互換性があり、データセット蒸留によって導入されるバイアスを大幅に低減できることが示されています。