線形回帰および線形ニューラルネットワークにおける転移学習の期待誤差境界

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、転移学習において補助データが汎化にどのようなときに寄与するかを調べ、2つの線形ベンチマーク、すなわち通常の最小二乗回帰（ordinary least squares regression）と、共有表現を持つ過小パラメータ化された線形ニューラルネットワークに焦点を当てる。
線形回帰では、バイアス分散分解を通じて期待される汎化誤差の厳密な閉形式表現を導出し、転移が有益かどうかを決める「タスク／タスク関連の補助データ」に関する必要十分条件を与える。
また、解ける最適化問題により補助タスクの重みについて大域的に最適な値を計算し、これらの量の経験的推定に対する整合性（consistency）の保証も提示する。
線形ニューラルネットワークでは、非漸近的な期待値境界（non-asymptotic expectation bound）を導出し、表現幅が制限される場合に補助学習が有益となるための最初の「非自明な」十分条件を与えるとともに、タスク重みのキュレーション（選定）に関する指針を提供する。
理論結果は、列ごとの構造を保持する新しい「列単位の低ランク摂動（column-wise low-rank perturbation）に関する確率行列の境界」に依拠しており、その知見は制御された合成実験によって裏付けられている。

Abstract

転移学習では、学習者が補助データを活用することで主要タスクにおける一般化を改善します。しかし、補助データがいつ、どのように役立つのかについての正確な理論的理解はいまだ不完全です。本稿では、この問題に対して2つの代表的な線形設定において新たな知見を提示します：通常の最小二乗回帰（ordinary least squares regression）と、過小パラメータ化された線形ニューラルネットワークです。線形回帰については、バイアス—分散分解に基づく期待一般化誤差の厳密な閉形式表現を導出し、補助タスクが主要タスクの一般化を改善するための必要十分条件を得ます。さらに、実行可能な最適化プログラムの出力として、タスク重みの大域的に最適な値も導出し、経験的推定に対する整合性（consistency）の保証を示します。幅が

q \leq K

（

K

は補助タスクの数）で、表現を共有する線形ニューラルネットワークに対しては、一般化誤差に関する非漸近的な期待値上界を導出し、この設定における有益な補助学習のための最初の非自明な十分条件と、タスク重み選定のための原理的な指針を得ます。これらは、ランダム行列に対する新しい列ごとの低ランク摂動（column-wise low-rank perturbation）に関する上界を証明することで実現します。既存の上界よりも、列のきめ細かな構造を保持する点で改良しています。本結果は、制御されたパラメータでシミュレーションした合成データにより検証します。