要旨: 我々は、特徴の強調とノイズ除去を目的として、与えられたデータセット上で距離構造を更新するための一般的な教師なしフレームワークであるWasserstein Transform(WT)を提案する。提案フレームワークでは、各データ点を、その点の近傍構造を反映する確率測度によって表現し、次にこれらの確率測度間のWasserstein距離を計算することで距離を更新する。Wasserstein Transformは、mean shiftファミリーのアルゴリズムを拡張する一般的な方法である。我々はWTのいくつかの具体例を調べ、とりわけGaussian Transform(GT)と呼ぶ一つの具体例では、個々のデータ点の近傍構造をモデル化するためにガウス測度を用いる。GTは、ガウス測度間の-Wasserstein距離に閉形式の解が存在するため、WTの他の具体例よりも計算コストが低い。我々はWTの異なる具体例間の関係を調べ、各具体例が摂動に対して安定であることを証明する。上記のWTを実行するための反復アルゴリズムを設計し、行列の平方根計算の回数を減らすための線形代数からの観察など、GTを高速化するいくつかの戦略を提案する。我々は、ノイズ除去、クラスタリング、画像セグメンテーション、単語埋め込みといった多くの課題において、Wasserstein Transform手法の性能を検討する。
ell^2
ワッサースタイン変換
arXiv stat.ML / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- Wasserstein Transform(WT)は、各データ点を近傍構造を表す確率測度として表現し、その確率測度間のワッサースタイン距離を計算して距離構造を更新する、教師なしの汎用フレームワークとして提案されます。
- WTは mean shift 系アルゴリズムを拡張した手法であり、距離構造の更新により特徴の強調やノイズ除去(denoising)を狙います。
- とくに Gaussian Transform(GT)は、ガウス測度同士の ℓ^2-ワッサースタイン距離に閉形式が存在するため計算効率が良く、他のWTインスタンスとの関係も整理したうえで、摂動に対する安定性を理論的に示します。
- 反復的アルゴリズムを提示し、GTの高速化として行列平方根計算の回数を減らす線形代数的な観察などの戦略を導入します。
- denoising、clustering、image segmentation、word embeddings など複数のタスクでの有効性が検討されています。




