フィッシャー部分空間での学習：LoRA微調整のためのガイド付き初期化

arXiv cs.LG / 2026/5/5

📰 ニュースModels & Research

共有:

要点

この論文は、LoRA微調整の性能が初期化時に選ぶ低ランク部分空間に大きく依存することを示しており、タスクに無関係な方向へ能力を割り当てると下流性能が深刻に低下し得ると論じています。
既存の初期化手法が主に事前学習済み重みの性質（幾何や大きさなど）に基づいている点を批判し、代わりに下流データ分布下で予測にどのようにパラメータ空間の方向が影響するかというデータに基づく観点を提案しています。
著者らは、下流データが誘起する曲率情報（フィッシャーに基づく情報）を用いてパラメータ摂動の影響度を定量化し、目的により整合したLoRA方向を選ぶ「Fisher-guided」初期化フレームワークを提示します。
複数のタスクとモダリティにわたる実験では、データに基づく初期化が既存手法に比べて下流性能を一貫してかつ有意に改善することが示されています。

概要: LoRAは、大規模言語モデル（LLM）を、事前学習済み重みの低ランク部分空間への更新に制限することで適応させます。これにより学習コストは大幅に削減されますが、適応の有効性は初期化時にどの部分空間を選ぶかに決定的に依存します。タスクに無関係な方向へ能力（キャパシティ）を割り当ててしまうような不適切な初期化は、下流性能を大きく損なう可能性があります。既存の初期化手法は主に、事前学習済み重みの固有の性質に依存しており、暗黙的に「重みの幾何学的構造だけがタスクの関連性を反映している」と仮定しています。しかし、このような基準は、モデルが下流データ分布とどのように相互作用するかを見落としています。本研究では、LoRAの初期化を、対象となるデータ分布のもとでパラメータ空間内の各方向がどれほど影響を与えるかを特定する問題として定式化します。我々は、適応部分空間の選択は、重みのみの大きさではなく、データを踏まえた感度によって決まるべきだと主張します。この観点に基づき、下流データによって誘起される曲率情報を活用し、パラメータ摂動がモデルの予測に与える影響の度合いを特徴付ける、フィッシャー誘導（Fisher-guided）型の枠組みを提案します。この観点は、LoRAの方向を選択するための、原理に基づいたタスク依存の基準を与え、適応を目標目的によりよく整合させます。多様なタスクおよびモダリティにまたがる実験結果は、データを踏まえた初期化が、既存手法に比べて下流性能を一貫してかつ有意に改善することを示しています。