fastml:Rにおけるより安全な自動機械学習のためのガード付きリサンプリング・ワークフロー

arXiv cs.LG / 2026/4/8

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本論文では、スケーリングや補完(imputation)のようなデータ依存の変換をリサンプリングより前に推定すると、前処理のリーケージが発生し、モデル性能の推定値が不自然に高くなる可能性があることを説明している。
  • 「ガード付きリサンプリング(guarded resampling)」によってリーケージに配慮した、ワンコールでの機械学習を提供するRパッケージfastmlを紹介する。具体的には、前処理を各リサンプル内で再推定し、そのフォールドの評価データに対してのみ適用する。
  • fastmlは、グループ化および時間順序に基づくリサンプリングをサポートし、高リスクな前処理設定をブロックし、外部依存関係の有無をレシピ(recipes)で監査し、サンドボックス化された実行と統合されたモデル説明を用いる。
  • 評価では、モンテカルロ・シミュレーションにより、グローバルな前処理はフォールド単位のガード付きリサンプリングと比べて、性能を大幅に過大評価し得ることが示されている。
  • 著者らは、仕様を揃えた場合にfastmlがtidymodelsと同等の保持データ性能(held-out performance)を達成することを報告しており、オーケストレーションを簡略化し、単一の統一インターフェースによって生存モデルのベンチマークを一貫して実現できるとしている。

Abstract

前処理の漏洩は、スケーリング、補完(imputation)、その他のデータ依存の変換を、再サンプリングの前に推定すると発生し、見かけ上の性能を過大評価しながら、検出が難しいまま残ります。本稿では、ガード付きの再サンプリングを通じて漏洩を意識した機械学習を単一呼び出しで行える R パッケージ fastml を提示します。そこでは、前処理を各再サンプリング内で再推定し、対応する評価(assessment)データに適用します。このパッケージは、グループ化された再サンプリングおよび時間順序付きの再サンプリングをサポートし、高リスクな構成をブロックし、外部依存関係についてのレシピ監査(audit)を行い、サンドボックス化された実行と統合されたモデル説明を含みます。fastml を、モンテカルロシミュレーションによって、グローバル正規化とフォールドローカル正規化を対比しつつ評価し、仕様を一致させたうえで tidymodels とのユーザビリティ比較を行い、さらに異なるサイズのデータセットにまたがる生存(survival)ベンチマークを実施します。そのシミュレーションは、グローバルな前処理が、ガード付き再サンプリングに比べて、見かけ上の性能を大きく過大評価することを示します。fastml は、tidymodels によって得られた保持(held-out)性能に一致する性能を示しつつ、ワークフローのオーケストレーションを削減しました。また、統一されたインターフェースによって複数の生存モデルクラスを一貫してベンチマークできることを支持しました。

fastml:Rにおけるより安全な自動機械学習のためのガード付きリサンプリング・ワークフロー | AI Navigate