Adaptive MSD-Splitting:歪んだ連続属性に対するC4.5とランダムフォレストの強化
arXiv cs.LG / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- Adaptive MSD-Splitting(AMSD)は、特徴の歪度に応じて標準偏差マルチプライヤを調整し、固定カットオフによって生じ得る深刻な情報損失を回避しながら、連続数値属性の離散化を改善します。
- MSD-Splittingが対称的な分布に対して持つ効率化の利点を土台に、AMSDは密な領域で区間幅を狭めることで弁別分解能を保ち、特に実データで多い生物医学・金融領域の歪んだデータに有効です。
- アンサンブル学習へ統合すると、Random Forest-AMSD(RF-AMSD)により、O(N log N)の全探索的離散化探索と比べてほぼ同等のO(N)時間計算量の改善を維持しつつ、高い精度を実現します。
- Census Income、Heart Disease、Breast Cancer、Forest Covertypeの実験では、AMSDが標準のMSD-Splittingより2〜4%高い精度を示し、ランダムフォレストで計算コストを大きく削減できることが報告されています。