微調整CLIPにおける注意ドリフトと転移保持のマッチド学習率解析

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

arXiv:2604.16410の研究では、学習率の慣例の違いによる混同を避けるため、CLIPに対するFull Fine-Tuning（Full FT）とLoRAをマッチド学習率グリッドで制御比較しています。
学習率は注意ドリフトと表現構造に強く影響し、EuroSATではFull FTが1e-6での軽微なエントロピー拡大から5e-5での顕著なエントロピー収縮へ移行する一方、LoRAはマッチド範囲全体でエントロピーが正のまま推移します。
マッチド学習率の条件下でLoRAはFull FTより大幅に高い外部ドメインの転移を保持し、EuroSATでCIFAR-100ゼロショットが約45.13% vs 11.28%、Petsで約58.01% vs 8.54%となりました。
Oxford-IIIT Petsでは「レジーム効果」が見られ、低学習率のLoRAはドメイン内でアンダーフィットになり得るため、手法平均だけではLoRAが有利になる条件が見えにくい可能性があると示しています。
著者らは、マッチド学習率での評価がFull FTとLoRAの解釈を大きく変えること、そして注意ドリフト指標は転移挙動の因果的説明というより表現保存の記述的診断として有用だと主張しています。

Abstract

CLIPの適応は、ドメイン内の精度を向上させる一方で、ドメイン外への転移を低下させ得るが、Full Fine-Tuning（Full FT）とLoRAの比較は、多くの場合異なる学習率の慣例によって混同されがちである。本研究では、Full FTとLoRAの制御されたマッチド学習率比較を用いて、適応手法と最適化スケールがCLIPにおける注意ドリフト（attention drift）と転移保持（transfer retention）にどのように共同で影響するかを調べる。完成した行列は、EuroSATとOxford-IIIT Petsの上で、CLIP ViT-B/32に対して4つの共有学習率（

10^{-6}

、

5{ imes}10^{-6}

、

10^{-5}

、

5{ imes}10^{-5}

）と5つのシードにわたって計80回の実行を含み、注意ドリフト指標、最良の検証精度、アダプタを考慮したCIFAR-100のゼロショット精度を評価する。学習率は構造変化を強く調調節する：EuroSATでは、Full FTは

10^{-6}

での穏やかなエントロピーの拡がり（entropy broadening）から、

5{ imes}10^{-5}

での顕著な収縮（contraction）へと移行するのに対し、LoRAはマッチドされた全グリッド範囲でエントロピーが正のままである。マッチド学習率において、LoRAはFull FTよりも実質的に多くのゼロショット転移を保持し、CIFAR-100精度でEuroSAT上では

45.13 ext{}%

（対）

11.28 ext{}%

、Pets上では

58.01 ext{}%

（対）

8.54 ext{}%

と平均される。Oxford-IIIT Petsは、レジーム（状況）効果も明らかにする：低学習率のLoRAはドメイン内を過小適合するため、手法のみの平均は、LoRAが競争力を持ち始めるタイミングを見えにくくすることがある。補助的なロールアウト（rollout）、パッチ間（patch-to-patch）、およびCKA分析は、制御された行列と方向性が一致している。全体として、マッチド学習率評価はFull FTとLoRAの解釈を大きく変え、注意ドリフトは、転移挙動の因果的な説明というよりも、表現保持を記述する診断指標として最も有用である。