ZOHを超えて:Vision Mambaのための高度な離散化戦略
arXiv cs.CV / 2026/4/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Vision Mambaのデフォルト離散化であるゼロ次ホールド(ZOH)が、動的な映像環境で時間的な忠実度を損ない、SSMベース視覚モデルの達成可能な精度を制約すると主張している。
- Vision Mambaの枠組み内で、ZOH、FOH、BIL/Tustin変換、ポリノミアル補間(POL)、高次ホールド(HOH)、第4階のルンゲ=クッタ法(RK4)まで含む6つの離散化手法を体系的に比較している。
- 画像分類、意味セグメンテーション、物体検出の標準ベンチマークでの実験結果から、POLとHOHが最も大きな精度向上をもたらす一方で学習時計算量が増えることが示されている。
- これに対し、双線形/Tustin(BIL)はZOHよりも一貫して改善しつつ追加オーバーヘッドは比較的小さく、精度と効率の最適なトレードオフを与えると結論づけられている。
- 結果として、本研究は離散化がSSMベース視覚アーキテクチャの重要な設計要因であることを明らかにし、手法選定の根拠を経験的に提示している。




