自己教師あり事前学習の漸近理論について：二段階のM推定と表現の対称性

arXiv cs.LG / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自己教師あり事前学習を二段階のM推定問題としてモデル化することで、先行研究の理論的上界よりも事前学習と下流の微調整をより鋭く結び付ける漸近理論を構築する。
事前学習パラメータがある群対称性のもとでのみ一意に定まるという、表現学習における識別可能性の問題に取り組む。具体的には、リーマン幾何を用いて、対称性に不変な本質的（intrinsic）パラメータを研究する。
著者らは、本質的な事前学習表現を軌道（orbit）不変性を通じて下流の予測へと接続し、下流テストリスクの極限分布を正確に特徴づける。
主要結果を、スペクトル事前学習、因子モデル、ガウス混合モデルといった複数のケーススタディで検証する。これらの仮定が成り立つ場合に、先行手法よりも問題固有の因子が改善されることを示す。

要旨: ラベルなしデータの大規模コーパスを用いて、下流の微調整（fine-tuning）に向けた表現を学習する自己教師あり事前学習は、現代の機械学習における礎となっています。理論的研究の蓄積は、このパラダイムを解析し始めていますが、既存の上界は、現在の学習速度がどれほど鋭いのか、またそれが事前学習と微調整の複雑な相互作用を正確に捉えているのかという疑問をなお開いたままにしています。本論文では、二段階のM推定（two-stage M-estimation）による事前学習の漸近理論を構築することで、このギャップを埋めます。主要な課題は、事前学習の推定量がしばしば、ある群の対称性（group symmetry）までしか識別できない点です。これは表現学習に共通する特徴であり、慎重な取り扱いを要します。私たちは、この問題をリーマン幾何の道具を用いて、事前学習表現の本質的なパラメータ（intrinsic parameters）を調べることで解決します。そして、軌道不変性（orbit-invariance）の概念を通じて、それらを下流の予測器（downstream predictor）と結びつけ、下流テストリスクの極限分布を精密に特徴づけます。さらに、主結果をスペクトル事前学習（spectral pre-training）、因子モデル（factor models）、ガウス混合モデル（Gaussian mixture models）といった複数の事例研究に適用し、適用可能な場合には先行研究に対して問題固有の因子（problem-specific factors）で大幅な改善を得ます。