Stylistic-STORM(ST-STORM):外観のセマンティックな性質を捉える

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、MoCo/DINOなど多くのSSL手法が、照明や幾何学変化といった「外観」の変化に不変な表現を学習することに基づいているが、外観そのものが識別に重要な信号となる場合には逆効果になり得ると主張している。
  • 提案手法はStylistic-STORM(ST-STORM)であり、ゲーティング機構によって制御された2つの潜在ストリームにより「コンテンツ」と「スタイル」を切り離すハイブリッドSSLフレームワークだ。
  • Contentブランチは、JEPAスキームにコントラスト学習を組み合わせ、外観変動に対して安定で不変な表現を目指して学習される。
  • Styleブランチは、特徴予測と再構成にアドバーサリアル制約を加えることで、テクスチャ、コントラスト、散乱などの外観固有のシグネチャを捉えるよう制約される。
  • ImageNet-1K、天候のきめ細かな特徴付け、ISIC 2024のメラノーマ検出で評価した結果、StyleブランチはMulti-WeatherでF1=97%、ISIC 2024でラベル10%条件ながらF1=94%など高い外観分離性能を示し、同時にContentブランチの意味性能(ImageNet-1KでF1=80%)を損なわないことが示されている。

要旨: MoCo や DINO に代表される自己教師あり学習(SSL)の主要なパラダイムの1つは、照明や幾何学的な変化など、特定の画像変換に不変な特徴を捉えることで頑健な表現を生成することを目指します。この戦略は、見た目とは独立に物体を認識することが目的である場合に適しています。しかし、見た目そのものが識別に使われる信号となると、途端に逆効果になります。たとえば天候分析では、雨の筋、雪の粒状性、大気散乱、そして反射やハローはノイズではありません。これらは本質的な情報を運んでいます。自動運転のような重要なアプリケーションでは、地面条件や大気条件に直接依存してグリップや視界が決まるため、これらの手がかりを無視することは危険です。我々は ST-STORM を導入します。これは、見た目(スタイル)を意味モダリティとして扱い、内容(コンテンツ)から切り離されるべきものとして分離するハイブリッド SSL フレームワークです。我々のアーキテクチャはゲーティング機構によって調整される2つの潜在ストリームを明示的に分離します。Content ブランチは、コントラストive 目的と結び付けられた JEPA スキームを通じて、不変性(見た目の変化に対する不変性)を促進する安定した意味表現を目指します。一方で Style ブランチは、特徴予測と再構成を、敵対的制約のもとで行うことで、外観のシグネチャ(テクスチャ、コントラスト、大気散乱)を捉えることができるように制約されます。我々は ST-STORM を、物体分類(ImageNet-1K)、きめの細かい天候の特徴付け、メラノーマ検出(ISIC 2024 Challenge)を含む複数のタスクで評価します。その結果、Style ブランチは複雑な外観現象を効果的に分離します(Multi-Weather で F1=97%、ラベル付きデータ 10% の ISIC 2024 で F1=94%)。さらに Content ブランチの意味的性能を低下させることはなく(ImageNet-1K で F1=80%)、重要な外観の保持が改善されます