エキスパート・ピラミッド・チューニング: 専門性主導のタスク割り当てのための効率的なパラメータ微調整

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Expert Pyramid Tuning (EPT) は、PEFT における多タスク適応を階層的に行う新しいアーキテクチャで、タスクの複雑さに応じた特徴表現を効率よく学習する。
EPT は共有メタ知識サブスペースと、学習可能なアップ投影機構を使って低次元から高次元の特徴を複数スケールで再構成するピラミッド投影を導入する。
タスク毎のルータがマルチスケール特徴の最適な組み合わせを動的に選択することで、個別タスクに適した適応を実現する。
大規模な実験では、MoE-LoRA 系の最先端手法を上回り、パラメータの再パラメトリゼーションにより訓練パラメータ数を削減しつつ性能を向上させた。
この論文は arXiv:2603.12577v1 の新規論文として、PEFT の最新動向として位置づけられる。

要旨: パラメータ効率の高いファインチューニング（PEFT）は、その極端なパラメータ効率性により、マルチタスク環境で大規模言語モデル（LLMs）を展開する際の主要なパラダイムとなっています。Mixture-of-Experts (MoE) ベースの LoRA 変種は、トークンを異なる低ランクのエキスパートへ動的にルーティングすることで有望な結果を得ていますが、タスクの複雑さの階層的性質を大きく見落としています。既存の手法は典型的には統一されたアーキテクチャを持つエキスパートを用いており、異なるタスクが要求する多様な特徴の粒度を捉える能力を制限しています――いくつかのタスクは高レベルの意味抽象を求め、他のタスクは細粒度の統語操作を必要とします。このギャップを埋めるべく、Expert Pyramid Tuning（EPT）を提案します。PEFTの領域に、コンピュータビジョンのマルチスケール特徴ピラミッドの概念を統合した斬新なアーキテクチャです。標準の LoRA とは異なり、EPT はタスク適応を2つの段階に分解します。1) 低次元で普遍的な言語パターンを符号化する共有メタ知識サブスペース；2) 学習可能なアッププロジェクション演算子を用いて、さまざまなスケールで高次元の特徴を再構成するピラミッド投影機構。タスク対応型ルータが、これらのマルチスケール特徴の最適な組み合わせを動的に選択します。複数のマルチタスクベンチマークにわたる広範な実験により、EPT は従来の最先端 MoE-LoRA 変種を著しく上回ることを示しています。さらに、私たちの設計の再パラメータ化機能のおかげで、EPT はこの性能向上を達成しつつ、学習パラメータ数を削減します。