必要最小限だけ詰める：カーネルリッジ回帰のための適応型辞書学習

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

カーネルリッジ回帰（KRR）では、カーネル行列を保存・操作するのにO(n^2)の空間が必要であり、大規模データでは実用化が難しくなりがちです。
Nystrom近似で一様サンプリングを行うとO(nm)まで省メモリ化できますが、カーネルのコヒーレンスが高いデータではmがO(n)規模になる場合があります。
リッジ・レバレッジスコア（RLS）に基づくサンプリングなら、mが有効次元に比例して精度の高いNystrom近似が可能ですが、厳密なRLS計算には依然としてO(n^2)の空間コストがかかります。
本論文はSQUEAKを提案し、INK-Estimateを拡張して非正規化RLSを用いることで手順を簡素化し、有効次元の正規化推定を不要にしつつ、厳密RLSサンプリングに近い（定数倍の範囲で）空間計算量を達成します。

要旨: カーネルリッジ回帰（KRR）の主要な制約の1つは、n個のサンプルに対するカーネル行列K_nを保存し、操作するのにO(n^2)の空間が必要であり、それが大きなnに対して急速に実行不可能になる点です。Nystrom近似は、K_nからm個の列をサンプリングすることで、空間計算量をO(nm)へと削減します。一様サンプリングは、K_nの最大自由度（最大次数の自由度）に比例するmが必要な場合に限り、KRRの精度（εまで）を保持しますが、コヒーレンスが高いデータセットでは最大でO(n)個の列が必要になることがあります。リッジ・レバレッジスコア（RLS）に従って列をサンプリングすると、効果次元（effective dimension）に比例したmで正確なNystrom近似が得られますが、正確なRLSの計算にも同様にO(n^2)の空間が必要です。
（Calandriello et al. 2016）は、データセットを逐次的に処理し、RLS、効果次元、そしてNystrom近似をその場（on-the-fly）で更新するアルゴリズムであるINK-Estimateを提案しています。その空間計算量は効果次元に比例して増加しますが、最大固有値（largest eigenvalue）への依存が導入されており、最悪の場合それはO(n)です。
本論文では、INK-Estimateを基にしつつ、正規化されていないRLSを用いる新しいアルゴリズムSQUEAKを導入します。その結果、アルゴリズムはより単純になり、正規化のために効果次元を推定する必要がなくなり、必要な空間計算量は正確なRLSサンプリングに比べて定数倍だけ悪いにとどまります。