Abstract
非負値行列因子分解(Nonnegative matrix factorization; NMF)は、非負の行列 X を、2つの非負の因子の積 WH によって近似します。ここで W は r 列を持ち、H は r 行を持ちます。本論文では、誤差指標として成分ごとの L1 ノルムを用いる NMF(L1-NMF)を考察します(L1-NMF)。これは、ラプラス雑音や塩・胡椒雑音のような裾の重い雑音によってデータが汚染されている場合、または外れ値が存在する場合に適しています。最初の貢献は、標準的な NMF が二乗和(最小二乗)を用いるのに対し、r=1 であっても L1-NMF が NP困難であることの証明です。2つ目の貢献は、疎な入力行列に対して L1-NMF が因子に強い疎性を課し、それによって解釈可能性が高まることを示す点です。ただし、データが偽のゼロの影響を受けている場合には、あまりに疎な解がモデルを劣化させる可能性があります。3つ目の貢献は、疎なデータのための新しく、より一般的な L1-NMF モデルである weighted L1-NMF(wL1-NMF)を提案することです。そこでは、因子分解の疎性を、データ中でゼロに対応する WH の成分に対して罰則パラメータを追加することで制御します。4つ目の貢献は、wL1-NMF のための新しい座標降下(CD)手法を提案することで、それを sparse CD(sCD)と呼びます。この手法では、各部分問題が重み付き中央値アルゴリズムによって解かれます。私たちの知る限り、sCD は L1-NMF のための最初のアルゴリズムであり、その計算量がデータ中の非ゼロ成分の数に比例してスケールするため、大規模で疎なデータを扱う上で効率的です。合成データおよび実データの両方に対して広範な数値実験を行い、新しく提案するモデル(wL1-NMF)とアルゴリズム(sCD)の有効性を示します。