Abstract
CLIPの適応は、ドメイン内の精度を向上させる一方で、ドメイン外への転移を低下させ得るが、Full Fine-Tuning(Full FT)とLoRAの比較は、多くの場合異なる学習率の慣例によって混同されがちである。本研究では、Full FTとLoRAの制御されたマッチド学習率比較を用いて、適応手法と最適化スケールがCLIPにおける注意ドリフト(attention drift)と転移保持(transfer retention)にどのように共同で影響するかを調べる。完成した行列は、EuroSATとOxford-IIIT Petsの上で、CLIP ViT-B/32に対して4つの共有学習率(10^{-6}、5{ imes}10^{-6}、10^{-5}、5{ imes}10^{-5})と5つのシードにわたって計80回の実行を含み、注意ドリフト指標、最良の検証精度、アダプタを考慮したCIFAR-100のゼロショット精度を評価する。学習率は構造変化を強く調調節する:EuroSATでは、Full FTは10^{-6}での穏やかなエントロピーの拡がり(entropy broadening)から、5{ imes}10^{-5}での顕著な収縮(contraction)へと移行するのに対し、LoRAはマッチドされた全グリッド範囲でエントロピーが正のままである。マッチド学習率において、LoRAはFull FTよりも実質的に多くのゼロショット転移を保持し、CIFAR-100精度でEuroSAT上では45.13 ext{}%(対)11.28 ext{}%、Pets上では58.01 ext{}%(対)8.54 ext{}%と平均される。Oxford-IIIT Petsは、レジーム(状況)効果も明らかにする:低学習率のLoRAはドメイン内を過小適合するため、手法のみの平均は、LoRAが競争力を持ち始めるタイミングを見えにくくすることがある。補助的なロールアウト(rollout)、パッチ間(patch-to-patch)、およびCKA分析は、制御された行列と方向性が一致している。全体として、マッチド学習率評価はFull FTとLoRAの解釈を大きく変え、注意ドリフトは、転移挙動の因果的な説明というよりも、表現保持を記述する診断指標として最も有用である。