概要: データ漏洩は、生物医学の機械学習研究において楽観的バイアスの反復的な原因であり続けています。標準的な行単位のクロスバリデーションや、グローバルに推定した前処理手順は、反復測定を含むデータ、研究レベルの異質性、バッチ効果、または時間的依存を持つデータではしばしば不適切です。本論文では、漏洩を意識した再サンプリングのワークフローを構築し、一般的な漏洩メカニズムに対して学習済みモデルを監査するためのRパッケージである bioLeak を説明します。このパッケージは、漏洩を意識した分割構築、学習フォールドのみを用いた前処理、クロスバリデーションに基づくモデル適合、ネストされたハイパーパラメータ調整、事後的な漏洩監査、およびHTMLレポートを提供します。実装は二値分類、多クラス分類、回帰、および生存分析をサポートし、タスク固有の指標と、分割、適合、監査、インフレーション要約のためのS4コンテナを備えています。シミュレーションの成果物は、制御された漏洩メカニズムの下で見かけ上の性能がどのように変化しうるかを示し、ケーススタディは、ガードされたパイプラインと漏洩を含むパイプラインが、多研究のトランスクリプトームデータに関して実質的に異なる結論を導き得ることを示しています。全体を通して重点が置かれているのは、ソフトウェア設計,再現可能なワークフロー,そして診断出力の解釈です。
bioLeak: 機械学習におけるRのためのリーク認識モデリングと診断
arXiv stat.ML / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、生物医学機械学習におけるデータリークによる楽観的バイアスを低減するためのRパッケージ「bioLeak」を紹介し、リーク認識のリサンプリング・ワークフローと診断によってその目的を達成します。
- データに反復測定、研究(サブジェクト)レベルの異質性、バッチ効果、時間的依存関係がある場合において、標準的な行単位クロスバリデーションやグローバル前処理の限界を扱います。
- bioLeak は、学習フォールドのみの前処理、入れ子型のハイパーパラメータ探索、クロスバリデーションに基づくモデル適合、そして解釈可能性のためのHTMLによる事後リーク監査をサポートします。
- 本パッケージは、二値/多クラス分類、回帰、サバイバル解析といった複数のMLタスクに対応し、分割・適合・監査・インフレーション(過大評価)要約のために構造化されたS4コンテナを用いています。
- シミュレーションおよびトランスクリプトミクスのケーススタディでは、ガードされたパイプラインとリーキーなパイプラインが実質的に異なる性能結論を導き得ることが示され、監査と再現可能なパイプライン設計の価値が強調されています。




