マスク付き画像モデリング表現における非意味的ノイズの抑制

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

マスク付き画像モデリング（MIM）の表現は、非意味的な「ノイズ」を意図せず保持してしまうことがあり、推論性能を低下させる。
本論文では、実データと合成データの非意味的画像に対してPCAを用いる、モデル非依存の意味不変性スコアリング手法を提案する。
追加学習なしでパッチ表現から非意味的情報を抑制する、事後処理型手法としてSemantically Orthogonal Artifact Projection（SOAP）を導入する。
SOAPはプラグアンドプレイとして設計されており、MIMベースの異なるモデルに単一の線形ヘッドとして接続でき、ゼロショット性能において一貫した向上が得られる。

Abstract

マスク画像モデリング（Masked Image Modeling: MIM）は、広く普及した自己教師あり視覚パラダイムになっています。本研究では、MIMの目的関数が学習された表現に非意味的（non-semantic）な情報を保持させ、その結果、推論時の性能を最終的に低下させることを示します。実データおよび合成の非意味的画像に対して、主成分分析（Principal Component Analysis: PCA）を用いることで、意味不変性（semantic invariance）のためのモデル非依存のスコアを導入します。このスコアに基づき、意味的に直交するアーティファクト射影（Semantically Orthogonal Artifact Projection: SOAP）という単純な手法を提案します。これは、パッチ表現中の非意味的情報を直接抑制することで、さまざまなMIMベースモデルにわたってゼロショット性能が一貫して改善されるようにします。SOAPは事後的（post-hoc）な抑制手法であり、学習は不要で、単一の線形ヘッドとして任意のモデルに付加できます。