ニューラル・ヤブ: 多様なタスク専門家は事前学習重みの周りに密集している
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 事前学習はパラメータベクトルの分布を生み出し、その分布のサポートにはすでにタスク特有の専門家が含まれている。
- 小さなモデルでは、専門家の解はパラメータ空間のごく小さな割合を占める一方で、大規模な事前学習済みモデルでは重みの周りのタスク専門家の密度が著しく高くなる。
- 著者らは、シンプルで完全に並列なポストトレーニング手法を提案する:ランダムに$N$個のパラメータ摂動をサンプルし、上位$K$を選択し、多数決で予測をアンサンブルする。
- このアプローチは、PPO、GRPO、ESといった従来のポストトレーニング手法と比べても、現代の大規模モデルに対して十分競争力がある(その単純さにもかかわらず)。
要旨: 事前学習は、通常、さらなる反復的適応の出発点として扱われる学習済みパラメータベクトルを生み出します。本研究では、事前学習の結果をパラメータベクトルの分布として捉え、そのサポート領域にはすでにタスク特有の専門家が含まれているとみなします。小さなモデルでは、このような専門家解はこの分布の体積のごく一部しか占めず、その発見は勾配降下法のような構造化された最適化手法に依存することになるということを示します。対照的に、巨大で十分に事前学習済みのモデルでは、タスク専門家の密度が劇的に増加し、多様な、タスクを改善する専門家が事前学習済み重みの周辺の近傍のかなりの割合を占めることになります。この見方に動機づけられ、ランダムに$N$個のパラメータ摂動をサンプルし、上位$K$を選択し、多数決で予測をアンサンブルする、シンプルで完全に並列なポストトレーニング手法を検討します。単純さにもかかわらず、このアプローチは現代の大規模モデルに対してPPO、GRPO、ESなどの標準的なポストトレーニング手法と競合します。
広告




