機械学習ワークフローの文法
arXiv cs.LG / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MLワークフローの新しい文法は、監督付き学習ライフサイクルを7つのカーネルプリミティブに分解し、それらを型付き有向非巡回グラフ(DAG)で結ぶことで、呼び出し時のデータ漏洩を防ぐ。
- このアプローチは4つの厳格な制約を導入しており、そのうち呼び出し時の実行時に強制される評価/アセスメント境界を含み、別個のEvidence型へのガードを介して繰り返しのテストセット評価を拒否する。
- 2,047件の実験を対象とする補足研究は、漏洩の影響を定量化しており、選択漏洩が性能を d_z = 0.93 増加させ、記憶化漏洩が d_z = 0.53–1.11 増加させることを示した。
- Python、R、Juliaの実装が提供されており、付録の仕様により他者が適合する版を構築できる。
概要: データ漏洩は、17の科学分野にわたり、公開済み論文294件に影響を及ぼした(Kapoor & Narayanan, 2023)。主な対応は文書化である:チェックリスト、リンター、ベストプラクティスガイド。しかし、文書化だけではこれらの失敗を防ぐことはできない。本論文は構造的な解決策を提案する。監督付き学習ライフサイクルを7つのカーネルプリミティブに分解し、それらを型付き有向非巡回グラフ(DAG)で結ぶ文法であり、呼び出し時に最も有害な2つの漏洩クラスを拒否する4つの厳格な制約を備える。文法の中核的な貢献は終端アセスメント制約である。これは実行時に強制される評価/アセスメントの境界であり、繰り返しのテストセット評価は名目上異なるEvidence型へのガードによって拒否される。2,047件の実験事例に跨る補足研究は、なぜこれが重要かを定量化しており、選択漏洩が性能を d_z = 0.93 増大させ、記憶化漏洵が d_z = 0.53–1.11 増大させることを示している。Python、R、およびJuliaの3つの別個の実装が主張を確認している。付録の仕様により、誰もが適合する版を構築できる。