fastml:Rにおけるより安全な自動機械学習のためのガード付きリサンプリング・ワークフロー
arXiv cs.LG / 2026/4/8
💬 オピニオンTools & Practical UsageModels & Research
要点
- 本論文では、スケーリングや補完(imputation)のようなデータ依存の変換をリサンプリングより前に推定すると、前処理のリーケージが発生し、モデル性能の推定値が不自然に高くなる可能性があることを説明している。
- 「ガード付きリサンプリング(guarded resampling)」によってリーケージに配慮した、ワンコールでの機械学習を提供するRパッケージfastmlを紹介する。具体的には、前処理を各リサンプル内で再推定し、そのフォールドの評価データに対してのみ適用する。
- fastmlは、グループ化および時間順序に基づくリサンプリングをサポートし、高リスクな前処理設定をブロックし、外部依存関係の有無をレシピ(recipes)で監査し、サンドボックス化された実行と統合されたモデル説明を用いる。
- 評価では、モンテカルロ・シミュレーションにより、グローバルな前処理はフォールド単位のガード付きリサンプリングと比べて、性能を大幅に過大評価し得ることが示されている。
- 著者らは、仕様を揃えた場合にfastmlがtidymodelsと同等の保持データ性能(held-out performance)を達成することを報告しており、オーケストレーションを簡略化し、単一の統一インターフェースによって生存モデルのベンチマークを一貫して実現できるとしている。




