幾何学的根拠に基づくデータセット比較のためのGSVD:整列角度こそ全て

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、共 span 制約 Ax = By = z を用いて二つのデータセットを比較する幾何学的根拠に基づく枠組みを提案し、GSVD(一般化特異値分解)を用いて二つの部分空間の共通座標系を作成します。
  • 彼らはデータを A = HCU および B = HSV と因数分解し、C^T C + S^T S = I のとき、(C, S) の対角構造を通じて共有方向とデータセット固有の方向を分離します。
  • サンプル z に対して、$[0, \pi/2]$ の範囲にある解釈可能な *角度スコア* $\theta(z)$ を導出し、$z$ が主に $A$ によって説明されるのか、主に $B$ によって説明されるのか、あるいは両方によってほぼ同等に説明されるのかを定量化します。
  • このアプローチは MNIST 上で角度分布と代表的な GSVD 方向を示すことで実証され、$\theta(z)$ に基づく二値分類器が、解釈可能な診断ツールとしての実用的な適用例として提示されます。
本文: arXiv:2603.10283v1 公表タイプ: new 要旨: 幾何学的根拠に基づく学習は、観測値を任意のベクトルとして扱うのではなく、問題領域の構造を尊重するモデルを求めます。 この見解に動機づけられ、データセットを比較するための古典的であまり用いられていない原始手法を再検討します: 二つのデータマトリクス間の線形関係を、共通の外部空間における co-span 制約 $Ax = By = z$ で表現します。 この比較を実務的に適用するために、GSVD(一般化特異値分解)を二つの部分空間の共通座標系として用います。具体的には、$A = HCU$、$B = HSV$ で、$C^{\top}C + S^{\top}S = I$ を満たす GSVD 形式を活用します。これにより、$(C, S)$ の対角構造を通じて共有方向とデータセット固有の方向を分離します。これらの因子から、サンプル $z$ に対して解釈可能な *角度スコア* $\theta(z) \in [0, \pi/2]$ を導出し、$z$ が相対的にどちらにより説明されるのか、あるいは両方によって同等に説明されるのかを定量化します。 $\theta(z)$ の主な役割は、各サンプルに対する *サンプルごとの幾何学的診断* です。 MNIST における角度分布と代表的な GSVD 方向を通じてスコアの挙動を示します。 $\theta(z)$ に基づく二値分類器は、解釈可能な診断ツールとしてのスコアの実用的な応用例として提示されます。