AEGIS：アンカー強制による勾配分離で知識を保持するビジョン・言語・アクションの微調整

arXiv cs.LG / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ロボット制御のために事前学習済みビジョン・言語モデル（VLM）を微調整するとき、行動エキスパート由来の高マグニチュードな連続勾配を注入することで、VQA性能が急速かつ深刻に劣化する問題（クロスモーダル勾配の非対称性）を指摘しています。
既存の対策である stop gradient や LoRA は学習経路を切る／更新の自由度を制限することで対応し得る一方、連続的な監督を捨てたり、事前学習されたセマンティック・マニフォールドを書き換えたりしてしまうと主張します。
提案手法 AEGIS は、共学習データやリプレイバッファなしで、連続的な MSE 学習を行いながら事前学習済みの VQA マニフォールドを保持するための、アンカー強制・層ごとの直交勾配射影フレームワークです。
AEGIS は、マスク付き VQA の順伝播から静的なガウス型アンカーを事前計算し、各学習ステップで Wasserstein-2 に基づくアンカー復元ペナルティ勾配を作り、層ごとに Gram–Schmidt の直交射影で破壊的な勾配成分を迂回させます。
論文の説明では、平均で勾配エネルギーの 1% 未満しか失わない一方で、蓄積するアクティベーションのドリフトを抑え、VQA 知識の深刻な忘却を防げるとしています。

要旨: ロボット制御のために事前学習済みの視覚-言語モデル（VLM）を適応させるには、フローマッチングの行動エキスパートから、バックボーンに対して高い大きさの連続的勾配を注入する必要がある。しかし、バックボーンはクロスエントロピーのみで学習されている。こうしたクロスモーダルな勾配非対称性、すなわち低ランクMSE回帰勾配と、CE事前学習によって彫刻された高次元の意味的マニフォールドとの間にあるスペクトル次元の不一致が原因で、VLMの視覚質問応答（VQA）能力は急速かつ深刻に侵食される。業界標準の防御策は、(1) stop gradientによって勾配経路を完全に断ち切り、豊かな連続的監督を捨てるか、(2) 更新のランクを制約するが方向は制約しない低ランク・アダプタ（LoRA）によってパラメータ容量を制限し、その結果として依然として事前学習済みマニフォールドを上書きしてしまう、のいずれかである。私たちはAEGIS（Anchor-Enforced Gradient Isolation System）を提案する。AEGISはバッファ不要で、層ごとの直交勾配射影フレームワークにより、共同学習データやリプレイバッファなしで、事前学習済みのVQAマニフォールドを保持したまま直接的な連続的MSE学習を可能にする。AEGISは、トランスフォーマー全層にわたるマスク付きVQAのフォワードパスから静的なガウス参照アンカーを事前計算し、各トレーニングステップではWasserstein-2の輸送ペナルティを構築してアンカー復元の勾配を生成する。逐次的なデュアルバックワードにより、タスク勾配とアンカー勾配を分解する。各トランスフォーマー層においてAEGISは、単一のグラム・シュミット直交射影を適用することで、破壊的な方向へと向かう勾配を逸らしつつ、その建設的な内容は保持する。この射影は平均して1%未満の勾配エネルギーしか捨てないにもかかわらず、深刻な忘却を引き起こす蓄積的な活性ドリフトを確実に除去する。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

AEGIS：アンカー強制による勾配分離で知識を保持するビジョン・言語・アクションの微調整

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer