基盤モデル時代におけるモデルのステッチの再検討

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、CLIP、DINOv2、SigLIP 2 を含む Vision Foundation Models（VFMs）に対して、ステッチポイント、ステッチ層ファミリー、訓練損失、下流タスク全体にわたるステッチを評価する体系的なプロトコルを提案する。
中間特徴を一致させるかエンドツーエンドのタスク損失を最適化する従来のステッチ手法は、特に浅いステッチポイントで精度を保持するのが難しいことを示している。
ターゲットモデルの末尾の1つ前の層での単純な特徴マッチング損失は、異種のVFMsおよび視覚タスク全体にわたる信頼性の高いステッチ性を実現する。
深いステッチポイントでは、ステッチ済みモデルが構成要素のいずれかのモデルよりも性能を上回る可能性があり、ステッチ層の推論オーバーヘッドはわずかである。
提案された VFM Stitch Tree（VST）は、VFMs の前半の層を共有しつつ後半の層を保持することで、マルチモーダル LLMs のための精度・遅延のトレードオフを制御可能にし、ステッチを補完的な VFM の強みを統合し、表現の整合性または発散を特定する実用的なレシピとして位置づける。

note

note

note

note

note