マスク付き画像モデリング表現における非意味的ノイズの抑制
arXiv cs.CV / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- マスク付き画像モデリング(MIM)の表現は、非意味的な「ノイズ」を意図せず保持してしまうことがあり、推論性能を低下させる。
- 本論文では、実データと合成データの非意味的画像に対してPCAを用いる、モデル非依存の意味不変性スコアリング手法を提案する。
- 追加学習なしでパッチ表現から非意味的情報を抑制する、事後処理型手法としてSemantically Orthogonal Artifact Projection(SOAP)を導入する。
- SOAPはプラグアンドプレイとして設計されており、MIMベースの異なるモデルに単一の線形ヘッドとして接続でき、ゼロショット性能において一貫した向上が得られる。




