ロバスト性の幾何学：損失ランドスケープの曲率最適化と特徴マニフォールド整合による視覚言語モデルのロバストなファインチューニング

arXiv cs.CV / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、シャープ／異方的な極小や摂動に敏感な特徴表現といった2つの幾何学的問題により、視覚言語モデルのロバストなファインチューニングではID精度、OOD汎化、対向（敵対的）ロバスト性のバランスを取れないと主張する。
GRACE（GRam-aligned Robustness via Adaptive Curvature Estimation）を提案し、パラメータ空間における曲率を正則化してより平坦な極小へ誘導しつつ、クリーン・敵対的・OOD入力間で特徴空間の不変性を課す統一的なファインチューニング手法を提示する。
GRACEでは、局所的に推定した曲率に応じてスケールした適応的な重み摂動を用い、Robust PAC-Bayes理論に動機づけられた特徴アラインメント損失と組み合わせる。
CLIPのImageNetでのファインチューニング実験では、同時に改善が得られた：ID精度が+10.8%、対向精度が+13.5%である一方、OOD精度はほぼ変化しない（ゼロショット基準57.0%に対し57.4%）。
追加の幾何学的解析では、GRACEがより平坦な極小へ収束し、分布シフト下で特徴の歪みを回避することを主張しており、基盤VLMに対する一般化されたロバスト性を目指している。

要旨: 視覚言語モデル（VLMs）の微調整アプローチは、分布内（ID）精度、分布外（OOD）汎化、および敵対的ロバスト性の間における重要な三者間トレードオフに直面している。既存のロバスト微調整戦略は、このトレードオフの少なくとも2つの軸しか解消できていない。一般化を保持する手法はID/OODの性能を維持するが、敵対的攻撃に対して脆弱なままである。一方、敵対的学習は標的攻撃へのロバスト性を高めるものの、ID/OOD精度を低下させる。私たちの主要な洞察は、このロバスト性トレードオフが2つの幾何学的失敗に起因しているという点である。すなわち、パラメータ空間における鋭く異方的なミニマムと、摂動の下で変形してしまう不安定な特徴表現である。これに対処するため、VLMsに対してパラメータ空間の曲率と特徴空間の不変性を同時に正則化する統一的な微調整枠組みGRACE（Gram-aligned Robustness via Adaptive Curvature Estimation）を提案する。ロバストPAC-Bayes理論に基づき、GRACEは局所曲率に比例してスケールされた適応的な重み摂動を用いてより平坦なミニマムを促し、さらにクリーン入力、敵対的入力、OOD入力にわたって表現の一貫性を維持する特徴アラインメント損失を組み合わせる。CLIPモデルのImageNet微調整において、GRACEはOOD精度57.0%を維持しつつ（ゼロショット基準の57.4%に対して）、ID精度を同時に10.8%改善し、敵対的精度を13.5%改善する。幾何学的解析により、GRACEは分布シフトにわたって特徴の歪みを伴わず、より平坦なミニマムへ収束することが確認され、基盤VLMにおける一般化されたロバスト性への原理的な一歩となっている。