AI Navigate

PicoSAM3: センサー内でのROIセグメンテーションをリアルタイムに実現

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • PicoSAM3 は、エッジおよびセンサー内実行を目的として設計された軽量でプロンプト可能なセグメンテーションモデルで、1.3百万パラメータを持ち、Sony IMX500ビジョンセンサー上にデプロイされています。
  • それは密なCNNバックボーンをROIプロンプトエンコーディング、Efficient Channel Attention、およびSAM2とSAM3からの蒸留と組み合わせて、低い複雑さで性能を向上させます。
  • COCOおよびLVISベンチマークにおいて、PicoSAM3はそれぞれ65.45%と64.01%のmIoUを達成し、同等または低い複雑さで既存のSAMベースおよびエッジ指向のベースラインを上回ります。
  • INT8 量子化版は、ほとんど劣化を伴わず精度を保持し、IMX500上で11.82 msのレイテンシでセンサー内推論をリアルタイムに実行可能です。
  • アブレーション研究は、大規模SAMモデルからの蒸留が教師あり学習を最大+14.5%のmIoU向上につながることを示し、センサー直下で高品質かつ空間的に柔軟なプロンプト対応セグメンテーションが直接実現可能であることを示しています。
本文: arXiv:2603.11917v1 告知タイプ: new 要旨:リアルタイムでデバイス上のセグメンテーションは、遅延に敏感でプライバシーを重視するスマートグラスやIoTデバイスのようなアプリケーションにとって重要です。我々はPicoSAM3を導入します。センサー内およびエッジでの実行に最適化された軽量なプロンプト対応視覚セグメンテーションモデルで、Sony IMX500ビジョンセンサー上でのデプロイを含みます。PicoSAM3は1.3Mパラメータを持ち、密なCNNアーキテクチャとROIプロンプトエンコーディング、Efficient Channel Attention、およびSAM2とSAM3からの知識蒸留を組み合わせています。COCOおよびLVISでは、PicoSAM3はそれぞれ65.45%と64.01%のmIoUを達成し、同等または低い複雑さで既存のSAMベースおよびエッジ指向のベースラインを上回ります。INT8量子化モデルはほとんど劣化を生じず、IMX500上で11.82 msのレイテンシでセンサー内推論をリアルタイムに実現し、メモリおよび演算子の制約を完全に満たします。アブレーション研究は、大規模なSAMモデルからの蒸留が教師あり学習を最大+14.5%のmIoU改善をもたらすことを示し、高品質で空間的に柔軟なプロンプト対応セグメンテーションがセンサーレベルで直接実現可能であることを示しています。