広告

疎データに対する成分ごとの L1 ノルムによる非負値行列因子分解

arXiv stat.ML / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、標準的な最小二乗 NMF と比べて重い裾をもつノイズや外れ値をより適切に扱うために、成分ごとの L1 誤差(L1-NMF)を用いた非負値行列因子分解を提案する。
  • L1-NMF は、階数 r=1 の場合でさえ NP 困難であることを証明し、従来の NMF と比べた本質的な計算困難性を明らかにしている。
  • 著者らは、入力行列が疎であるとき、L1-NMF が学習された因子に強い疎性を自然に誘導し、解釈可能性を高める一方で、偽のゼロがある場合には性能を損なう可能性があることを示す。
  • これに対処するため、観測データでゼロになっている箇所に対応する WH の成分を罰則として課すことで疎性を制御する、重み付き L1-NMF(wL1-NMF)を導入する。
  • 重み付き中央値法により部分問題を解く座標降下アルゴリズム(sparse CD / sCD)を提示し、その計算複雑性が非ゼロ要素数に比例してスケールすると議論しており、大規模な疎データセットに適していることを示唆している。

Abstract

非負値行列因子分解(Nonnegative matrix factorization; NMF)は、非負の行列 X を、2つの非負の因子の積 WH によって近似します。ここで Wr 列を持ち、Hr 行を持ちます。本論文では、誤差指標として成分ごとの L1 ノルムを用いる NMF(L1-NMF)を考察します(L1-NMF)。これは、ラプラス雑音や塩・胡椒雑音のような裾の重い雑音によってデータが汚染されている場合、または外れ値が存在する場合に適しています。最初の貢献は、標準的な NMF が二乗和(最小二乗)を用いるのに対し、r=1 であっても L1-NMF が NP困難であることの証明です。2つ目の貢献は、疎な入力行列に対して L1-NMF が因子に強い疎性を課し、それによって解釈可能性が高まることを示す点です。ただし、データが偽のゼロの影響を受けている場合には、あまりに疎な解がモデルを劣化させる可能性があります。3つ目の貢献は、疎なデータのための新しく、より一般的な L1-NMF モデルである weighted L1-NMF(wL1-NMF)を提案することです。そこでは、因子分解の疎性を、データ中でゼロに対応する WH の成分に対して罰則パラメータを追加することで制御します。4つ目の貢献は、wL1-NMF のための新しい座標降下(CD)手法を提案することで、それを sparse CD(sCD)と呼びます。この手法では、各部分問題が重み付き中央値アルゴリズムによって解かれます。私たちの知る限り、sCD は L1-NMF のための最初のアルゴリズムであり、その計算量がデータ中の非ゼロ成分の数に比例してスケールするため、大規模で疎なデータを扱う上で効率的です。合成データおよび実データの両方に対して広範な数値実験を行い、新しく提案するモデル(wL1-NMF)とアルゴリズム(sCD)の有効性を示します。

広告