エッジ配備可能な個体レベルの畜産モニタリングと長期的ビジュアル分析のためのSAM 3およびDINOv3の軽量蒸留

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本研究は、精密畜産(PLF)向けの大規模基盤モデル要素を圧縮し、GPUメモリに制約のある一般的なエッジ計算環境で動かすことを目的としています。
  • SAM 3の446Mパラメータ知覚エンコーダを、TinyViTベースの特徴ピラミッドエンコーダ、4項目のdirection-then-scale蒸留損失、さらにスライディングウィンドウ推論とセッション・プルーニングによってストリーミング時のメモリ増加を抑えつつ、40.66Mパラメータの学生モデルへ蒸留します。
  • DINOv3ファミリーでは、約21.6Mパラメータの事前蒸留済みViT-S/16を個体ごとの埋め込み(embedder)として採用し、より大きいViT-7B教師モデルと並行して蒸留を支える構成としています。
  • Edinburgh Pigデータセットで、SAM 3教師モデルと高い整合性を保ちながらシステム規模とピークVRAMを大幅に削減でき、さらに9クラスの豚行動分類でも高い精度を示します。
  • 結果として得られるパイプラインはNVIDIA Jetson Orin NX(16GB)に収まることが示され、(実験的検証は未実施であるものの)個体再識別のオンデバイス埋め込みプール機構を通じて、疾病や跛行、繁殖、生育などの転帰ラベルと遡及的に関連付け可能な長期ビジュアル記録を構築する構想も述べています。