PicoSAM3: センサー内でのROIセグメンテーションをリアルタイムに実現

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

共有:

要点

PicoSAM3 は、エッジおよびセンサー内実行を目的として設計された軽量でプロンプト可能なセグメンテーションモデルで、1.3百万パラメータを持ち、Sony IMX500ビジョンセンサー上にデプロイされています。
それは密なCNNバックボーンをROIプロンプトエンコーディング、Efficient Channel Attention、およびSAM2とSAM3からの蒸留と組み合わせて、低い複雑さで性能を向上させます。
COCOおよびLVISベンチマークにおいて、PicoSAM3はそれぞれ65.45%と64.01%のmIoUを達成し、同等または低い複雑さで既存のSAMベースおよびエッジ指向のベースラインを上回ります。
INT8 量子化版は、ほとんど劣化を伴わず精度を保持し、IMX500上で11.82 msのレイテンシでセンサー内推論をリアルタイムに実行可能です。
アブレーション研究は、大規模SAMモデルからの蒸留が教師あり学習を最大+14.5%のmIoU向上につながることを示し、センサー直下で高品質かつ空間的に柔軟なプロンプト対応セグメンテーションが直接実現可能であることを示しています。

本文: arXiv:2603.11917v1 告知タイプ: new 要旨：リアルタイムでデバイス上のセグメンテーションは、遅延に敏感でプライバシーを重視するスマートグラスやIoTデバイスのようなアプリケーションにとって重要です。我々はPicoSAM3を導入します。センサー内およびエッジでの実行に最適化された軽量なプロンプト対応視覚セグメンテーションモデルで、Sony IMX500ビジョンセンサー上でのデプロイを含みます。PicoSAM3は1.3Mパラメータを持ち、密なCNNアーキテクチャとROIプロンプトエンコーディング、Efficient Channel Attention、およびSAM2とSAM3からの知識蒸留を組み合わせています。COCOおよびLVISでは、PicoSAM3はそれぞれ65.45%と64.01%のmIoUを達成し、同等または低い複雑さで既存のSAMベースおよびエッジ指向のベースラインを上回ります。INT8量子化モデルはほとんど劣化を生じず、IMX500上で11.82 msのレイテンシでセンサー内推論をリアルタイムに実現し、メモリおよび演算子の制約を完全に満たします。アブレーション研究は、大規模なSAMモデルからの蒸留が教師あり学習を最大+14.5%のmIoU改善をもたらすことを示し、高品質で空間的に柔軟なプロンプト対応セグメンテーションがセンサーレベルで直接実現可能であることを示しています。

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

Dev.to

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

GIGAZINE

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

MarkTechPost

［D］SQLのみで分類器を訓練する（反復的最適化なし）

Reddit r/MachineLearning

PicoSAM3: センサー内でのROIセグメンテーションをリアルタイムに実現

要点

関連記事

次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ

オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘

RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning（DQN）を実装し、カートポール環境の強化学習エージェントを訓練する

［D］SQLのみで分類器を訓練する（反復的最適化なし）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer