要旨: ロボット制御のために事前学習済みの視覚-言語モデル(VLM)を適応させるには、フローマッチングの行動エキスパートから、バックボーンに対して高い大きさの連続的勾配を注入する必要がある。しかし、バックボーンはクロスエントロピーのみで学習されている。こうしたクロスモーダルな勾配非対称性、すなわち低ランクMSE回帰勾配と、CE事前学習によって彫刻された高次元の意味的マニフォールドとの間にあるスペクトル次元の不一致が原因で、VLMの視覚質問応答(VQA)能力は急速かつ深刻に侵食される。業界標準の防御策は、(1) stop gradientによって勾配経路を完全に断ち切り、豊かな連続的監督を捨てるか、(2) 更新のランクを制約するが方向は制約しない低ランク・アダプタ(LoRA)によってパラメータ容量を制限し、その結果として依然として事前学習済みマニフォールドを上書きしてしまう、のいずれかである。私たちはAEGIS(Anchor-Enforced Gradient Isolation System)を提案する。AEGISはバッファ不要で、層ごとの直交勾配射影フレームワークにより、共同学習データやリプレイバッファなしで、事前学習済みのVQAマニフォールドを保持したまま直接的な連続的MSE学習を可能にする。AEGISは、トランスフォーマー全層にわたるマスク付きVQAのフォワードパスから静的なガウス参照アンカーを事前計算し、各トレーニングステップではWasserstein-2の輸送ペナルティを構築してアンカー復元の勾配を生成する。逐次的なデュアルバックワードにより、タスク勾配とアンカー勾配を分解する。各トランスフォーマー層においてAEGISは、単一のグラム・シュミット直交射影を適用することで、破壊的な方向へと向かう勾配を逸らしつつ、その建設的な内容は保持する。この射影は平均して1%未満の勾配エネルギーしか捨てないにもかかわらず、深刻な忘却を引き起こす蓄積的な活性ドリフトを確実に除去する。
AEGIS:アンカー強制による勾配分離で知識を保持するビジョン・言語・アクションの微調整
arXiv cs.LG / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、ロボット制御のために事前学習済みビジョン・言語モデル(VLM)を微調整するとき、行動エキスパート由来の高マグニチュードな連続勾配を注入することで、VQA性能が急速かつ深刻に劣化する問題(クロスモーダル勾配の非対称性)を指摘しています。
- 既存の対策である stop gradient や LoRA は学習経路を切る/更新の自由度を制限することで対応し得る一方、連続的な監督を捨てたり、事前学習されたセマンティック・マニフォールドを書き換えたりしてしまうと主張します。
- 提案手法 AEGIS は、共学習データやリプレイバッファなしで、連続的な MSE 学習を行いながら事前学習済みの VQA マニフォールドを保持するための、アンカー強制・層ごとの直交勾配射影フレームワークです。
- AEGIS は、マスク付き VQA の順伝播から静的なガウス型アンカーを事前計算し、各学習ステップで Wasserstein-2 に基づくアンカー復元ペナルティ勾配を作り、層ごとに Gram–Schmidt の直交射影で破壊的な勾配成分を迂回させます。
- 論文の説明では、平均で勾配エネルギーの 1% 未満しか失わない一方で、蓄積するアクティベーションのドリフトを抑え、VQA 知識の深刻な忘却を防げるとしています。



