ZOHを超えて:Vision Mambaのための高度な離散化戦略

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Vision Mambaのデフォルト離散化であるゼロ次ホールド(ZOH)が、動的な映像環境で時間的な忠実度を損ない、SSMベース視覚モデルの達成可能な精度を制約すると主張している。
  • Vision Mambaの枠組み内で、ZOH、FOH、BIL/Tustin変換、ポリノミアル補間(POL)、高次ホールド(HOH)、第4階のルンゲ=クッタ法(RK4)まで含む6つの離散化手法を体系的に比較している。
  • 画像分類、意味セグメンテーション、物体検出の標準ベンチマークでの実験結果から、POLとHOHが最も大きな精度向上をもたらす一方で学習時計算量が増えることが示されている。
  • これに対し、双線形/Tustin(BIL)はZOHよりも一貫して改善しつつ追加オーバーヘッドは比較的小さく、精度と効率の最適なトレードオフを与えると結論づけられている。
  • 結果として、本研究は離散化がSSMベース視覚アーキテクチャの重要な設計要因であることを明らかにし、手法選定の根拠を経験的に提示している。

Abstract

視覚Mambaは状態空間モデル(SSM)として、入力信号がサンプリングの瞬間の間で一定であると仮定するゼロ次ホールド(ZOH)による離散化を採用しています。この仮定は動的な視覚環境において時間的忠実度を低下させ、現代のSSMベースの視覚モデルが到達し得る精度を制約します。本論文では、Vision Mambaフレームワーク内で実装された6つの離散化方式について、体系的かつ制御された比較を提示します。すなわち、ZOH、一次ホールド(FOH)、双線形/チュージン変換(BIL)、多項式補間(POL)、高次ホールド(HOH)、および4次ルンゲ=クッタ法(RK4)です。各手法が画像分類、セマンティックセグメンテーション、物体検出において精度に与える影響を定量化するために、標準的な視覚ベンチマーク上で評価します。結果は、POLとHOHがより高い学習時計算コストを伴うものの、最も大きな精度向上をもたらすことを示しています。一方でBILは、ZOHに対して一貫した改善を示しつつ、追加のオーバーヘッドは控えめであり、精度と効率の間で最も好ましいトレードオフを提供します。これらの知見は、SSMベースの視覚アーキテクチャにおける離散化の極めて重要な役割を明らかにし、最先端のSSMモデルにおけるデフォルト離散化ベースラインとしてBILを採用することの、経験的に根拠づけられた正当化を与えます。