臨床データセットのデータセット・コンデンセーションにおける幾何学的特性評価と、構造化された軌跡サロゲート

arXiv cs.LG / 2026/4/24

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、データセット・コンデンセーションにおける軌跡マッチング(trajectory matching)を解析し、固定された合成データセットでは実データでの学習により生じるパラメータ変化の“限られた範囲”しか再現できないことを示している。
  • SGD軌跡から得られる教師信号がスペクトル的に広い場合、その再現には「条件付き表現可能性(conditional representability)」のボトルネックが生じ得る。
  • この不一致を解消するため、著者らは Bezier Trajectory Matching(BTM)を提案し、SGDの軌跡全体の教師信号を、初期状態と最終状態の間の2次ベジェ軌跡サロゲートで置き換える。
  • BTMはベジェ軌道上の平均損失を下げるようにサロゲートを最適化し、より構造化された低ランクの教師信号を用いることで、固定合成データセットという制約により適合させると同時に、軌跡の保存量も大幅に削減する。
  • 5つの臨床データセットでの実験では、BTMが標準的な軌跡マッチングと同等以上の性能を一貫して示し、特に有病率が低いケースや合成データ予算が小さいケースで最大の改善が見られる。