FAAR:自動ランク選択による効率的な周波数認識マルチタスク・ファインチューニング

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • FAAR論文は、モデル規模やタスク数の増大に伴うフル・ファインチューニングの高コストを回避しつつ、マルチタスク学習のための効率的なパラメータ効率の高い(PEFT)ファインチューニング手法を提案する。
  • 固定された低ランク設定の代わりに、FAARはPerformance-Driven Rank Shrinking(PDRS)を用いて、アダプタの各ロケーションおよび各タスクごとに最適なランクを自動的に割り当てる。
  • タスク間の関係性や空間情報をより適切に捉えるため、FAARはTask-Spectral Pyramidal Decoder(TS-PD)を導入し、空間的バイアス学習において画像の周波数スペクトルを活用して、入力に依存した文脈を取り込む。
  • 総合的なビジュアルタスクのベンチマーク(高密度タスク)での実験により、FAARはMTLに対する先行するPEFT手法よりも、精度と効率の両面で改善することが示されており、従来のMTLのフル・ファインチューニングに比べてパラメータを最大9×削減できる。
  • 著者らはコードも公開しており、他の研究者や実務者がFAAR手法を再現し、効率的なマルチタスク適応ワークフローに採用できるようにしている。

要旨: 大規模データセットで事前学習されたモデルを適応させることは、下流タスクに対して迅速に高い性能を得るための実証済みの方法です。しかし、最先端モデルの進歩に伴い、従来のフルファインチューニングは不向きであり、特にコストがタスク数に比例して増大するマルチタスク学習(MTL)では困難です。そのため、近年の研究では、学習可能なパラメータ数を大幅に削減するために、低ランク適応を用いたパラメータ効率的ファインチューニング(PEFT)が検討されています。ですが、既存のこれらの手法は単一の固定ランクを用いており、MTLアーキテクチャ内の異なるタスクや位置に対して必ずしも最適ではない可能性があります。さらに、これらの手法は、タスク間の関係を捉え、多様なタスク予測の改善に役立つ空間情報を学習できません。本論文では、効率的なMTLファインチューニングのためのFrequency-Aware and Automatic Rank(FAAR)を提案します。提案手法は、アダプタの各配置位置および各タスクごとに最適なランクを割り当てるための、Performance-Driven Rank Shrink-ing(PDRS)を導入します。さらに、画像の周波数スペクトルを解析することで、FAARはTask-Spectral Pyramidal Decoder(TS-PD)を提案し、空間バイアス学習に入力固有の文脈を注入することで、タスク間の関係をより適切に反映できるようにします。密な視覚タスクのベンチマークで実施した実験では、MTLにおいて、他のPEFT手法と比べて精度と効率の両面で本手法が優れていることが示されました。FAARは、従来のMTLファインチューニングと比べてパラメータ数を最大9倍削減しつつ、全体の性能を向上させます。コードは公開されています。