要旨: 本論文では、Fast Segment Anything モデルとセマンティックラベリングのパイプラインを組み合わせて、精度を損なうことなくリアルタイム性能を実現するセマンティック・ファスト・SAM(Semantic-Fast-SAM; SFS)を提案する。FastSAMは、オリジナルのトランスフォーマーベースSAMよりもはるかに高速に動作する、Segment Anything Model(SAM)の効率的なCNNベース再実装である。FastSAMの高速なマスク生成を土台として、各マスクに意味のあるカテゴリを割り当てるためのセマンティック・セグメント・エニシング(Semantic-Segment-Anything; SSA)のラベリング戦略を統合する。得られたSFSモデルは、元のSAMベース手法と比べて計算コストおよびメモリ使用量がごく一部でありながら、高品質なセマンティックセグメンテーションマップを生成する。CityscapesおよびADE20Kベンチマークでの実験により、SFSは、先行するSAMベース手法と同等の精度を達成することが示される(Cityscapesで mIoU 約70.33、ADE20Kで48.01)。さらに、クローズドセット設定においてSSAより約20倍高速な推論を実現する。加えて、CLIPベースのセマンティックヘッドを活用することで、SFSはオープンボキャブラリ・セグメンテーションを効果的に扱えることを示す。広範なクラスのラベリングにおいて、近年のオープンボキャブラリモデルを上回る。 本研究は、「segment-anything」機能を備えた実用的なリアルタイム・セマンティックセグメンテーションを可能にし、ロボティクスのシナリオにおける基盤セグメンテーションモデルの適用範囲を広げる。実装は https://github.com/KBH00/Semantic-Fast-SAM で公開されている。
Semantic-Fast-SAM:効率的なセマンティック・セグメンター
arXiv cs.CV / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文では、FastSAM(CNNベースで高速なSAMの再実装)とセマンティックなラベリング・パイプラインを組み合わせた、リアルタイム向けセマンティックセグメンテーション手法 Semantic-Fast-SAM(SFS)を提案する。
- SFSは、トランスフォーマー型SAMベースのアプローチに比べて計算量とメモリ使用量を大幅に抑えつつ、従来のSAMベース手法と同等レベルの精度でセマンティックなセグメンテーションマップを生成する。
- CityscapesとADE20Kでの実験では、mIoUがおおよそ70.33(Cityscapes)と48.01(ADE20K)を示し、クローズドセット設定でSSAより約20倍高速な推論を達成している。
- CLIPベースのセマンティックヘッドを用いることでオープンボキャブラリのセグメンテーションにも対応し、幅広いクラスのラベリングで既存のオープンボキャブラリモデルより良い結果を示す。
- 実装はGitHubで公開されており、「segment-anything」系のリアルタイムなセマンティックセグメンテーションを試せるようになっている。
