FourierMoE:大規模言語モデルのためのフーリエ・モジュラー(Fourier)混合エキスパート適応

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FourierMoEは、従来のMoE-PEFT手法が用いていた空間(spatial)領域ではなく、スペクトル(周波数)領域へ混合エキスパート適応を移すことで、LLMに対する新しいパラメータ効率の高いファインチューニング手法を提案する。
  • この手法は、異なるタスクが異なる周波数エネルギー分布を持ち、またLLMの各層が周波数に対して不均一な感度(heterogeneous sensitivities)を示すという知見に動機づけられている。
  • FourierMoEは、周波数適応型ルータを用いて、異なる周波数帯に特化したエキスパートへトークンを振り分ける。さらにエキスパートは、位相と振幅の完全な情報を保持するために、共役対称(conjugate-symmetric)な複素係数を学習する。
  • 著者らは、FourierMoEが逆離散フーリエ変換(IDFT)によって実数値の空間重みを理論的に損失なしで再構成できると主張しており、適応中も表現の忠実性を維持する。
  • 28のベンチマークにまたがり、複数のモデルアーキテクチャと異なるスケールで実験した結果、シングルタスクおよびマルチタスクのファインチューニングの双方においてベースラインに対する一貫した改善が見られ、かつ訓練可能パラメータ数は大幅に少ないことが示されている。

要旨: パラメータ効率の高い微調整(PEFT)は、計算予算が限られた状況で大規模言語モデル(LLM)を適応させるための重要なパラダイムとして登場してきた。しかし、標準的なPEFT手法は、多タスク微調整の設定ではしばしば問題に直面する。複数の多様な最適化目的がタスク間の干渉を引き起こし、限られたパラメータ予算は表現力の不足につながるためである。これらの課題を緩和するために、近年は混合エキスパート(MoE)を取り入れるアプローチが提案されているが、それらは主に空間領域で動作しており、構造的冗長性やパラメータのオーバーヘッドが生じる可能性がある。これらの制約を克服するために、我々はスペクトル領域における適応を再定式化する。スペクトル解析の結果、異なるタスクは異なる周波数エネルギー分布を示し、またLLMの各層が不均質な周波数感度を持つことを明らかにした。これらの知見に動機づけられて、FourierMoEを提案する。これは、MoEアーキテクチャに逆離散フーリエ変換(IDFT)を組み合わせ、周波数に応じた適応を行う。具体的には、FourierMoEは周波数適応型ルータを用いて、トークンを異なる周波数帯域に特化したエキスパートへと振り分ける。各エキスパートは、共役対称な複素係数の集合を学習し、位相と振幅の完全な情報を保持する。その上で、理論的には実数値の空間重みへの損失のないIDFT再構成を保証する。28のベンチマーク、複数のモデル・アーキテクチャ、さまざまなスケールにわたる大規模な評価により、FourierMoEは、単一タスクおよび多タスクの両方の設定において、競合するベースラインを一貫して上回りながら、学習可能パラメータ数を大幅に削減できることを示した。これらの結果は、スペクトル領域におけるエキスパート適応が、LLMの微調整に対する効果的かつパラメータ効率の高いパラダイムとして有望であることを示している。

FourierMoE:大規模言語モデルのためのフーリエ・モジュラー(Fourier)混合エキスパート適応 | AI Navigate