要約: BreimanとCutlerの元の Random Forest は、統一された ML エンジンとして設計されており、単なるアンサンブル予測器ではありませんでした。彼らの実装には、分類、回帰、教師なし学習、近接性に基づく類似性、外れ値検出、欠損値の補完、そして可視化が含まれており、scikit-learn のような現代のライブラリが決して実装していなかった機能です。RFX-Fuse(Random Forests X [X=compression] -- Forest Unified Learning and Similarity Engine)は、GPU/CPU のネイティブサポートとともに、BreimanとCutlerの完全なビジョンを提供します。現代の ML パイプラインには 5 つ以上の別々のツールが必要です。予測には XGBoost、類似性には FAISS、説明には SHAP、外れ値には Isolation Forest、重要性にはカスタムコード。RFX-Fuse は、単一の木集合を一度だけ育てるという、1 つのモデルオブジェクトの代替案を提供します。新規の貢献: (1) 近接重要度 -- ネイティブな解釈可能な類似性: サンプルが類似していることを示す近接度の指標; 近接重要度はなぜそうなるのかを説明します。 (2) 汎用的な表形式データに対するデータセット特異的な欠損値補完の検証 -- 実データの見た目がどれだけ現実的かで補完方法をランキングし、グラウンド・トゥルースのラベルを必要としません。
RFX-Fuse: ブライマンとカットラーの統一機械学習エンジン + ネイティブに説明可能な類似性
arXiv cs.LG / 2026/3/17
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- RFX-Fuse は、ブライマンとカットラーの統一的なランダムフォレストエンジンとして提示され、単一のモデルオブジェクト内で分類、回帰、教師なし学習、近接性ベースの類似性、外れ値検出、欠損値の補完、そして可視化をサポートします。
- 近接性ベースの測度を通じてネイティブな説明可能性を提供し、サンプルがなぜ類似と見なされるのかを説明するための Proximity Importance を導入します。
- データセット固有の欠損値補完の妥当性検証を導入し、補完データがどれだけ現実的に見えるかで補完手法をランク付けします。ground-truthラベルは不要です。
- エンジンはネイティブな GPU/CPU サポートを提供し、XGBoost、FAISS、SHAP、Isolation Forest などの複数の独立ツールを1つの統一フレームワークに置換することを目指します。
- 本研究は、統一型 ML エンジンというブライマンとカットラーの元々のビジョンを復活させると位置づけられ、現在のライブラリが機能を多数のツールに分割しているのとは対照的です。




