ViSAGE @ NTIRE 2026 チャレンジにおける動画サリエンシ予測

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • ViSAGE(Video Saliency with Adaptive Gated Experts)は、NTIRE 2026のVideo Saliency Predictionチャレンジ向けに提案されたマルチエキスパート・アンサンブル手法です。
  • 専用のデコーダごとに適応的なゲーティングとモジュレーションを行い、動画の時空間特徴を段階的に洗練していく設計です。
  • 複数エキスパートの予測を推論時に融合することで、相補的な帰納バイアスを集約し、複雑な注目(サリエンシー)手がかりを捉えることを狙います。
  • プライベートテストでは4指標中2指標で1位、他2指標でも多くの競合を上回り、汎化性能の高さを示したと報告されています。
  • 実装コードは指定GitHubリポジトリで公開されています。