GF-Score: 公平性保証付きのクラス条件ロバスト性評価(認証済み)

arXiv cs.LG / 2026/4/15

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、単一の集約スコアではなく、クラスごとのロバスト性のばらつきを明らかにする「認証済みのクラス条件ロバスト性プロファイル」を生成するフレームワークGF-Scoreを提案する。
  • さらに、4つの公平性/厚生経済学に基づく指標(RDI、NRGC、WCR、FP-GREAT)を定義し、認証済みロバスト性保証のもとでの不均衡と最悪ケースのクラス性能を定量化する。
  • GF-Scoreはまた、自身のキャリブレーション手続きを通じて、温度パラメータを「クリーン精度の相関のみ」を用いて調整することで、敵対的攻撃への依存を取り除く。
  • CIFAR-10およびImageNetに対するRobustBenchの22モデルでの実験では、分解結果が元の手法と完全に一致することを示し、「cat(猫)」が多くのCIFAR-10モデルで最も脆弱であるといった一貫した脆弱性パターンを強調する。
  • 著者らは、認証済みロバスト性がどのクラスをどの程度均等に保護できていないかを診断するための、攻撃不要の監査(オーディティング)パイプラインを提示し、あわせてGitHubでコードを公開している。

要旨: 敵対的ロバスト性は、安全性が重要なアプリケーションにニューラルネットワークを導入するために不可欠です。しかし、標準的な評価手法は、費用のかかる敵対的攻撃を必要とするか、あるいはロバスト性の分布をクラス間で見えなくしてしまう単一の集約スコアのみを報告することが多いです。私たちは、emGF-Score/em(GREAT-Fairness Score)という枠組みを導入します。この枠組みでは、認定(certified)されたGREATスコアをクラスごとのロバスト性プロファイルに分解し、さらに福利厚生の経済学に基づく4つの指標によってそれらの不均衡(disparity)を定量化します。具体的には、Robustness Disparity Index(RDI)、Normalized Robustness Gini Coefficient(NRGC)、Worst-Case Class Robustness(WCR)、およびFairness-Penalized GREAT Score(FP-GREAT)です。加えて、この枠組みは、クリーンな精度の相関のみを用いて温度パラメータを調整する自己校正(self-calibration)手順によって、元の手法の敵対的攻撃への依存をさらに取り除きます。RobustBenchの22モデルをCIFAR-10およびImageNetで評価した結果、分解は正確であること、クラスごとのスコアが一貫した脆弱性パターンを明らかにすること(例:``cat''はCIFAR-10モデルの76%において最も弱いクラスである)、そしてよりロバストなモデルほどクラスレベルの不均衡が大きくなる傾向があることがわかりました。これらの結果は、認定されたロバスト性保証がすべてのクラスを等しくは保護できない“どこで失敗するのか”を診断するための、実用的な攻撃不要の監査(auditing)パイプラインを確立するものです。コードは href{https://github.com/aryashah2k/gf-score}GitHub/href で公開します。