勾配ブースティングの説明における先行者バイアス:メカニズム、検出、解消
arXiv cs.AI / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、勾配ブースティングの説明における「先行者バイアス(first-mover bias)」を、相関する特徴が早期の分岐をめぐって競合する際に、逐次的な残差の当てはめによって生じるメカニズム的で経路依存的な特徴重要度の集中として特定する。
- 先に選ばれた特徴は、後続の木が既存(incumbent)の特徴を優先する残差を引き継ぐことで自己強化的な優位性を得るため、SHAPに基づく順位付けが多重共線性下で不安定になることを説明する。
- 著者らは、「大規模単一モデル(Large Single Model)」(同一の総木数のまま)へスケールすると、試した各ワークフローの中で最もSHAP説明の安定性が悪化し、その設定でバイアスがより顕著になることを示す。
- さらに、モデル独立性によって逐次的な依存関係を断ち切ることで、この問題は線形領域の両方で解消され、非線形なデータ生成過程においても最も効果的な緩和策であることを示す。
- 2つの手法—DASH(Diverseified Aggregation of SHAP)と単純なシード平均(Stochastic Retrain)—により安定性が回復し(たとえば ρ=0.9 では、安定性が両者で 0.977 に到達)、また論文では、真のラベルなしでバイアスを検出するための診断ツール(FSI と IS Plot)も導入している。



