FractalMamba++:ヒルベルトのフラクタル幾何で解像度をまたいでビジョンMambaをスケールする

arXiv cs.CV / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Vision Mambaの重要な制約として、2Dパッチ格子を1Dの状態空間再帰に直列化する方法が推論解像度に強く影響し、学習グリッドを超える解像度で性能が劣化し得る点を扱っています。
  • FractalMamba++では、ヒルベルト曲線にもとづくフラクタル直列化により空間的局所性を解像度をまたいでより適切に保持し、ラスター/線形スキャンより近傍統計の一貫性を高めます。
  • Fractal Hierarchy Skip Connection(FHSC)として、ヒルベルト再帰のレベルから導出した決定論的な状態注入経路により、長系列での情報の減衰を抑えます(ランタイム探索、手作業の勾配設計、専用CUDAカーネルを不要にすることを狙っています)。
  • さらに、Fractal-Aware 2D Rotary Position Encoding(FA-RoPE)を導入し、位置相互作用を1Dの直列距離ではなく、実際の2D近接性とフラクタル階層レベルに結び付けます。
  • ImageNet-1K、COCOの検出・インスタンスセグメンテーション、ADE20Kのセマンティックセグメンテーション、LEVIR-CD+のリモートセンシング変化検出での実験により、特に高解像度入力で、既存のMambaベース視覚バックボーンより良い性能が示されています。

Abstract

Vision Mambaは長い視覚シーケンスに対して線形計算量を提供しますが、その性能は、二次元のパッチ格子を一次元の状態空間再帰へどのようにシリアライズするかに決定的に依存します。ラスタ形式の走査は空間的連続性を損ない、推論解像度が学習グリッドを超えて大きくなるほど、2Dの局所性と1Dの状態伝播の不一致はますます深刻になります。本論文では、単一の幾何学的原理に基づいて構成された解像度スケーラブルな視覚バックボーンであるFractalMamba++を提示します。この原理とは、ヒルベルト曲線の再帰的で自己相似的な構造が、パッチがどのようにシリアライズされるか、長距離の状態ショートカットがどこに挿入されるか、そして位置関係がどのように符号化されるかを決定するというものです。第一に、ヒルベルト曲線に基づくFractal Serializationは、線形スキャンよりも局所的な2D近傍をより忠実に保持し、さらに解像度間で一貫した近傍統計を提供します。第二に、Fractal Hierarchy Skip Connection(FHSC)は、ヒルベルト再帰のレベルから決定論的な状態注入経路のコンパクトな集合を導出し、推論時の探索、手作業で導出した勾配、専用のCUDAカーネルなしで、長系列における情報の減衰を緩和します。第三に、Fractal-Aware 2D Rotary Position Encoding(FA-RoPE)は、正規化された2D座標とフラクタル階層レベルを組み合わせることで、特徴相互作用がシリアライズされた1D距離ではなく、実際の空間的近接性と再帰的な構造上の役割に依存するようにします。ImageNet-1K分類、COCOの検出とインスタンスセグメンテーション、ADE20Kの意味セグメンテーション、ならびにLEVIR-CD+のリモートセンシング変化検出に関する大規模な実験により、FractalMamba++は既存のMambaベース視覚バックボーンを上回り、特に高解像度入力において顕著に優れていることが示されます。