Cross Learning によるデータ類似度の定量化

arXiv stat.ML / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のデータセット類似度手法がラベル情報や、特徴と応答の整合(アラインメント)を見落としがちであり、その結果として転移学習やドメイン適応の性能が制限されると主張しています。
  • 入力特徴分布だけでなく、決定ルールの双方向の汎化性能に基づいて類似度を測る指標として、Cross-Learning Score(CLS)を提案しています。
  • さらに、CLSを代表的な線形モデルにおける決定境界間のコサイン類似度へ結び付けることで、その理論的裏付けと幾何学的な解釈を与えています。
  • 高次元の密度推定を回避しつつ実装しやすい、アンサンブルに基づく頑健な推定器も開発されています。
  • 転移学習のために「transferable zones」フレームワークを導入し、ソースデータセットを正・曖昧・負の転移領域に分類する枠組みを示し、合成データおよび実データで大規模に有効性を検証しています。

要旨: データセットの類似度を測ることは、機械学習において基本的であり、特に転移学習やドメイン適応において重要です。教師あり学習の文脈では、既存のほとんどの手法が、入力特徴の分布に基づいて2つのデータセットの類似度を定量化する一方で、ラベル情報や特徴と応答の整合(アラインメント)を無視しています。これに対処するために、決定規則の双方向の一般化性能を通じてデータセットの類似度を測る、Cross-Learning Score(CLS)を提案します。CLSを、正準的な線形モデルの下での決定境界間のコサイン類似度に結び付けることで、幾何学的な解釈を与えつつ、その理論的基盤を確立します。頑健なアンサンブルに基づく推定器を開発し、実装が容易であり、高次元の密度推定をまったく回避します。転移学習の応用のために、ソースデータセットを、正の転移領域・曖昧な転移領域・負の転移領域に分類する「transferable zones(転移可能領域)」の枠組みを導入します。深層学習に対応するため、CLSをエンコーダ・ヘッド構造へ拡張し、現代の表現(表現学習)ベースのパイプラインと整合させます。合成データセットおよび実世界データセットに対する大規模な実験により、類似度の測定および転移の評価におけるCLSの有効性が検証されます。