MFil-Mamba: 空間冗長性を考慮した視覚状態空間モデルのためのマルチフィルター走査

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

MFil-Mambaは、2Dの空間的依存関係をより適切に捉えつつ、視覚タスクにおける冗長性を減らすよう設計されたマルチフィルター走査バックボーンに基づく視覚状態空間アーキテクチャを導入します。
本モデルは、複数の走査の出力を融合する適応的重み付け機構を使用し、それぞれの走査が固有で文脈上関連性のある情報を捉えられるよう、アーキテクチャ上の強化を取り入れています。
画像分類、物体検出、インスタンスセグメンテーション、セマンティックセグメンテーションの各タスクで優れた結果を報告しており、tiny版は ImageNet-1K でトップ1精度83.2%、MS COCO でボックスAP 47.3%、マスクAP 42.7%、ADE20K で mIoU 48.5% を達成しています。
著者らは再現性と広範な採用を目的として、GitHubでコードとモデルを公開しています。