曲率を考慮したPCAと測地線接空間の集約による半教師あり学習

arXiv cs.AI / 2026/4/22

💬 オピニオンModels & Research

要点

  • 本論文は、通常のPCAでは曲がった(非線形な)多様体上に支持されるデータの構造を捉えられない一方、一般的なマンifold学習ではPCAに近いスペクトル構造や安定性が損なわれがちだと主張しています。
  • Geodesic Tangent Space Aggregation PCA(GTSA-PCA)を提案し、グローバルな共分散の代わりに、k近傍グラフ上で定義した曲率重み付きのローカル共分散を用いて、局所的に適応する接空間を構成します。
  • さらに、測地線整合(geodesic alignment)オペレータを導入し、グラフ上の固有距離と部分空間の類似度を組み合わせて、局所表現を統一的なスペクトル枠組みの下で全体的に同期させます。
  • 整合プロセスに半教師あり情報を組み込み、ラベル付きデータを最小限にしつつ判別性の高い埋め込みを改善します。
  • 実データ実験では、PCA、Kernel PCA、Supervised PCAに加えUMAPなどの強いグラフ系ベースラインに対して一貫した優位性が報告され、とくに小標本・高曲率の条件で効果が大きいとされています。

Abstract

主成分分析(PCA)は表現学習のための基本的な手法ですが、その大域的な線形な定式化では、湾曲した多様体上で支持されるデータの構造を捉えられません。これに対して、多様体学習の手法は非線形性をモデル化しますが、しばしばPCAのスペクトル構造や安定性を犠牲にします。本稿では、 \emph{Geodesic Tangent Space Aggregation PCA(GTSA-PCA)} を提案します。これは、幾何学的な観点でPCAを拡張し、曲率への認識と測地一貫性を、統一されたスペクトルの枠組みの中に統合するものです。提案手法では、大域的な共分散作用素を、k近傍グラフ上で定義される曲率で重み付けされた局所共分散作用素に置き換えます。これにより、多様体に適応する局所接空間を得ると同時に、高曲率による歪みを抑制します。次に、固有のグラフ距離と部分空間の親和性を組み合わせる測地整合(geodesic alignment)作用素を導入し、これらの局所表現を大域的に同期させます。その結果得られる作用素はスペクトル分解を許し、その主要成分が幾何学を考慮した埋め込みを定義します。さらに、整合を導くために半教師あり情報を組み込み、最小限の教師信号で識別的な構造を改善します。実データセットでの実験では、PCA、Kernel PCA、Supervised PCAに対して一貫した改善が示され、さらにUMAPのような強力なグラフベースのベースラインに対しても、特に少数サンプルサイズおよび高曲率の領域で優れていることが確認されました。本結果は、GTSA-PCAが次元削減における統計的アプローチと幾何学的アプローチの間を、原理に基づいて架け橋する手法であることを位置づけます。