ViSAGE @ NTIRE 2026 チャレンジにおける動画サリエンシ予測
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- ViSAGE(Video Saliency with Adaptive Gated Experts)は、NTIRE 2026のVideo Saliency Predictionチャレンジ向けに提案されたマルチエキスパート・アンサンブル手法です。
- 専用のデコーダごとに適応的なゲーティングとモジュレーションを行い、動画の時空間特徴を段階的に洗練していく設計です。
- 複数エキスパートの予測を推論時に融合することで、相補的な帰納バイアスを集約し、複雑な注目(サリエンシー)手がかりを捉えることを狙います。
- プライベートテストでは4指標中2指標で1位、他2指標でも多くの競合を上回り、汎化性能の高さを示したと報告されています。
- 実装コードは指定GitHubリポジトリで公開されています。




