疎データに対する成分ごとの L1 ノルムによる非負値行列因子分解

arXiv stat.ML / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、標準的な最小二乗 NMF と比べて重い裾をもつノイズや外れ値をより適切に扱うために、成分ごとの L1 誤差（L1-NMF）を用いた非負値行列因子分解を提案する。
L1-NMF は、階数 r=1 の場合でさえ NP 困難であることを証明し、従来の NMF と比べた本質的な計算困難性を明らかにしている。
著者らは、入力行列が疎であるとき、L1-NMF が学習された因子に強い疎性を自然に誘導し、解釈可能性を高める一方で、偽のゼロがある場合には性能を損なう可能性があることを示す。
これに対処するため、観測データでゼロになっている箇所に対応する WH の成分を罰則として課すことで疎性を制御する、重み付き L1-NMF（wL1-NMF）を導入する。
重み付き中央値法により部分問題を解く座標降下アルゴリズム（sparse CD / sCD）を提示し、その計算複雑性が非ゼロ要素数に比例してスケールすると議論しており、大規模な疎データセットに適していることを示唆している。

Abstract

非負値行列因子分解（Nonnegative matrix factorization; NMF）は、非負の行列

X

を、2つの非負の因子の積

WH

によって近似します。ここで

W

は

r

列を持ち、

H

は

r

行を持ちます。本論文では、誤差指標として成分ごとの

L1

ノルムを用いる NMF（L1-NMF）を考察します（L1-NMF）。これは、ラプラス雑音や塩・胡椒雑音のような裾の重い雑音によってデータが汚染されている場合、または外れ値が存在する場合に適しています。最初の貢献は、標準的な NMF が二乗和（最小二乗）を用いるのに対し、

r=1

であっても L1-NMF が NP困難であることの証明です。2つ目の貢献は、疎な入力行列に対して L1-NMF が因子に強い疎性を課し、それによって解釈可能性が高まることを示す点です。ただし、データが偽のゼロの影響を受けている場合には、あまりに疎な解がモデルを劣化させる可能性があります。3つ目の貢献は、疎なデータのための新しく、より一般的な L1-NMF モデルである weighted L1-NMF（wL1-NMF）を提案することです。そこでは、因子分解の疎性を、データ中でゼロに対応する

WH

の成分に対して罰則パラメータを追加することで制御します。4つ目の貢献は、wL1-NMF のための新しい座標降下（CD）手法を提案することで、それを sparse CD（sCD）と呼びます。この手法では、各部分問題が重み付き中央値アルゴリズムによって解かれます。私たちの知る限り、sCD は L1-NMF のための最初のアルゴリズムであり、その計算量がデータ中の非ゼロ成分の数に比例してスケールするため、大規模で疎なデータを扱う上で効率的です。合成データおよび実データの両方に対して広範な数値実験を行い、新しく提案するモデル（wL1-NMF）とアルゴリズム（sCD）の有効性を示します。