線形時間不変ダイナミクスでMAEを再考する

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GAPやCLSトークンに基づく一般的な凍結視覚モデルの表現プロービングが、パッチトークンを順序のない特徴の袋として扱ってしまっており、実際にはトークン順序が重要で活用可能な信号であると主張する。
SSMProbeとして、状態空間モデル（SSM）を用いたプロービング手法を提案し、SSMを離散の線形時間不変（LTI）ダイナミクスとしてモデル化することで、記憶減衰によって最終状態が系列順序に厳密に依存するようにする。
トークン順序を情報スケジューリング問題として定式化し、固定の走査ヒューリスティックと、下流タスクの教師信号から学習されるSinkhornベースの微分可能なソフト順列を比較する。
MAE、BEiT、DINOv2、さらにCLSアブレーション極限におけるViTを含む複数の凍結バックボーンで評価した結果、「順序ギャップ」が大きく、固定順序の走査は局所的なパッチ特徴では失敗しやすい一方で、学習されたソフト順列は競争力のある性能を引き出せることが示される。
さらに、事前学習の目的がトークン構造を順序に依存する形で形成し、SSMプローブはこの不均一性を理解・活用するための新しい診断的観点を提供すると結論づけている。