FractalMamba++:ヒルベルトのフラクタル幾何で解像度をまたいでビジョンMambaをスケールする
arXiv cs.CV / 2026/5/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、Vision Mambaの重要な制約として、2Dパッチ格子を1Dの状態空間再帰に直列化する方法が推論解像度に強く影響し、学習グリッドを超える解像度で性能が劣化し得る点を扱っています。
- FractalMamba++では、ヒルベルト曲線にもとづくフラクタル直列化により空間的局所性を解像度をまたいでより適切に保持し、ラスター/線形スキャンより近傍統計の一貫性を高めます。
- Fractal Hierarchy Skip Connection(FHSC)として、ヒルベルト再帰のレベルから導出した決定論的な状態注入経路により、長系列での情報の減衰を抑えます(ランタイム探索、手作業の勾配設計、専用CUDAカーネルを不要にすることを狙っています)。
- さらに、Fractal-Aware 2D Rotary Position Encoding(FA-RoPE)を導入し、位置相互作用を1Dの直列距離ではなく、実際の2D近接性とフラクタル階層レベルに結び付けます。
- ImageNet-1K、COCOの検出・インスタンスセグメンテーション、ADE20Kのセマンティックセグメンテーション、LEVIR-CD+のリモートセンシング変化検出での実験により、特に高解像度入力で、既存のMambaベース視覚バックボーンより良い性能が示されています。



