論文: https://arxiv.org/abs/2603.12288
GitHub(Rシミュレーション、論文サマリー、音声概要): https://github.com/tjleestjohn/from-garbage-to-gold
私はテリー、第一著者です。この論文は作成に2.5年を要しました。私はこのコミュニティからの技術的な批評を心から歓迎します。
核心的な結果: 潜在的な階層構造により生成されるデータ — Y ← S¹ → S² → S'² — の場合、予測子集合を拡張するBreadth戦略は、固定した予測子集合をクリーニングするDepth戦略を漸近的に優越します。証明は、予測子空間ノイズを二つの形式的に異なる成分に分割することから導かれます:
- 予測子誤差: 真の予測子値と測定された予測子値との観測的乖離。クリーニング、繰り返し測定、または S¹ の別個の代理指標を用いて予測子集合を拡張することで対処可能です。
- 構造的不確実性: 確率的な S¹ → S² の生成写像に起因する、不可約なあいまいさ — 固定した予測子集合を完全に測定しても残る情報欠損。S¹ の別個の代理指標を用いて予測子集合を拡張することでのみ解消されます。
この区別は重要です。これら二つのノイズ種は異なる情報理論的限界に従います。クリーニング戦略は、測定精度に関係なく、構造的不確実性によって理論的に制約を受けます。Breadth戦略はそうではありません。
BO との関連: 主たる構造 Y ← S¹ → S² → S'² が自然に S'² に低ランク+対角の共分散構造を生み出すことを正式に示します — これは、Benign Overfitting 論文(Bartlett ら、Hastie ら、Tsigler & Bartlett)が、補間分類器が一般化できると特定する“尖鋭共分散”の前提条件そのものです。これにより、BO 条件が経験的に成り立つ理由を、抽象的な数学的前提として課すのではなく、生成的なデータ・アーキテクチャの説明として提供します。
実証的根拠: 理論は、Cleveland Clinic Abu Dhabi の査読付き臨床結果 — .909 AUC predicting stroke/MI in 558k patients using thousands of uncurated EHR variables with no manual cleaning, published in PLOS Digital Health — が、既存の理論では説明不能だったことに動機づけられました。
正直な適用範囲: このフレームワークは潜在的な階層構造を持つデータを必要とします。論文はこの条件が成り立つかを評価するためのヒューリスティクスを提供します。我々は従来の DCAI's の「結果変数クリーニング」に焦点を当てる点が、特定の条件、特に共通手法分散(Common Method Variance)が存在する場合にはなお強力であることを明示します。
この論文は長い — 120ページ、8つの付録 — これはGIGOが深く根付いており、理論がニュアンスを持つためです。核心的な証明はセクション3-4にあります。BOとの関連はセクション7です。制限はセクション15にあり、広範です。
リポジトリには、さまざまなノイズ条件下での Dirty Breadth 対 Clean Parsimony を示す完全注釈付きの R シミュレーションがあります。
技術的な質問や証明に対する反論にも喜んで対応します。
[リンク] [コメント]

