概要: 最近、特徴アップサンプリングは、ピクセルレベルの理解タスクのために視覚ファウンデーションモデル(VFMs)の性能を向上させる効果があることから、ますます注目を集めています。既存の手法は通常、同じ基盤モデルからの高解像度特徴に依存して自己再構成を通じてアップサンプリングを実現します。しかし、モデル内の特徴だけに依存すると、アップサンプラーはソースモデルの固有の位置ずれや高ノルムアーチファクトに過剰適合します。この根本的な制約に対処するため、複数のVFMsの関係指導を導入して単一モデル依存から脱却する新規フレームワーク DiveUp を提案します。素朴な特徴融合の代わりに、DiveUpは多様なVFMsを専門家のパネルとして活用し、それらの構造的合意を用いてアップサンプラーの学習過程を正規化し、ソースモデルから不正確な空間構造が伝搬するのを効果的に防ぎます。異なるVFMs間で揃っていない特徴空間を調整するため、局所重心(COM)場として定式化された普遍的な関係特徴表現を提案します。これにより本質的な幾何学的構造を抽出し、モデル間のシームレスな相互作用を可能にします。さらに、各VFMの空間的信頼性を評価するスパイク性を考慮した選択戦略を導入し、高ノルムのアーチファクトを効果的に除去して、各局所領域で最も信頼できる専門家からの指針のみを集約します。 DiveUp は統一的でエンコーダに依存しないフレームワークです。共同訓練されたモデルは、個別のモデルを再訓練することなく、多様なVFMsからの特徴を普遍的にアップサンプリングできます。大規模な実験により、DiveUpがさまざまな下流の密集予測タスクで最先端の性能を達成することを示し、複数の専門家による関係指導の有効性を検証しています。コードとモデルは以下で利用可能です: https://github.com/Xiaoqiong-Liu/DiveUp
DiveUp: 多様なビジョンファウンデーションモデルからの特徴アップサンプリングを学ぶ
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DiveUpは、多様なビジョンファウンデーションモデルを専門家として活用する、複数のVFM間の関係性ガイダンスフレームワークを提案します。これにより、特徴のアップサンプリングを正規化し、単一モデルに起因する不正確な空間構造の伝搬を防ぎます。
- 異なるVFM間で揃っていない特徴空間を整合させ、モデル間の相互作用を可能にする普遍的な関係的特徴表現として、局所質量中心場を導入します。
- このフレームワークには、空間的信頼性を評価し、高ノルムのアーティファクトを除外する、スパイク性を意識した選択戦略が含まれており、各局所領域で最も信頼性の高い専門家からのみガイダンスを集約します。
- DiveUpはエンコーダに依存せず、共同訓練が可能で、モデルごとの再訓練を必要とせずに、多様なVFMからの特徴を普遍的にアップサンプリングします。
- 実験では、複数の密な予測タスクにおいて最先端の性能を示し、マルチエキスパートの関係性ガイダンスの有効性を実証しています。コードとモデルはGitHubで公開されています。
関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由
note
日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ
日経XTECH
Building Safety Guardrails for LLM Customer Service That Actually Work in Production
Dev.to

The Digital Paralegal: Amplifying Legal Teams with a Copilot Co-Worker
Dev.to

AWS Bedrock vs PremAI: Which Generative AI Platform Fits Your Enterprise?
Dev.to