複数のビジョンモデルをオーケストレーションするゼロショット万引き検知：学習済み単一モデルの代替としてのモデル非依存・低コスト手法

arXiv cs.CV / 2026/4/17

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageIndustry & Market MovesModels & Research

共有:

要点

Pazaは、プロプライエタリなデータセットでモデルを学習せずに、零ショットで小売の万引き（隠匿）行動を検知する、モデル非依存の小売向け検知フレームワークです。
低コストの物体検出とポーズ推定を常時動作させ、複数の行動シグナルにもとづく事前フィルタにより必要なときだけ高コストなビジョン言語モデル（VLM）を呼び出す階層型パイプラインを採用しています。
疑わしさの事前フィルタ（滞在時間＋少なくとも1つの行動シグナル）によりVLM呼び出しを240倍削減し、1分あたり最大10回までに抑えることで、1つのGPUで10〜20店舗をカバーできるようにします。
VLMコンポーネントはOpenAI互換エンドポイントを入力として扱えるため、Gemma 4、Qwen3.5-Omni、GPT-4oなどのモデルをコード変更なしで差し替え可能で、モデル状況の変化に追随できます。
DCSASS合成万引きデータセットでの評価では、零ショットにおいてVLM部が適合率89.5%、特異度92.8%、再現率59.3%を達成し、誤報率に直結する指標（適合率・特異度）を重視すると実運用上の価値が示されています。また、1店舗あたり月$50〜100の費用見積りと、顔を秘匿するプライバシー配慮設計も提示されています。

要旨: 小売の窃盗は、世界経済に対して年間1000億ドル超の損失をもたらしています。しかし既存のAIベースの検出システムは、専有データセットに対する高価なカスタムモデル学習を必要とし、さらに店舗あたり月額200〜500ドルを請求します。私たちは、学習を一切行わずに実用的な隠匿（concealment）検出を達成する、ゼロショット小売窃盗検出フレームワーク「Paza」を提示します。私たちのアプローチは、複数の既存モデルを階層化されたパイプラインで統制します。すなわち、安価な物体検出と姿勢推定を常時実行し、行動の前処理フィルタ（behavioral pre-filters）がトリガーされた場合にのみ、高価なビジョン言語モデル（VLM）を呼び出します。疑わしさのためのマルチシグナル・プリフィルタ（滞在時間に加えて少なくとも1つの行動シグナルを要求する）により、フレームごとの解析と比べてVLM呼び出しを240倍削減し、呼び出し回数を<=10回/分に抑え、単一GPUで10〜20店舗に対応可能にします。アーキテクチャはモデルに依存しません。VLMコンポーネントはOpenAI互換の任意のエンドポイントを受け入れるため、Gemma 4、Qwen3.5-Omni、GPT-4o、あるいは将来のリリースへと、コード変更なしでモデルを切り替えられます。これにより、VLMの状況が進化するにつれてシステムが改善され続けることを保証します。私たちは、DCSASS合成万引きデータセット（169本、制御された環境）でVLMコンポーネントを評価し、ゼロショットにおいて精度89.5%・特異度92.8%・再現率59.3%を達成しました。再現率のギャップは、VLMの推論失敗ではなく、オフライン評価における疎なフレームサンプリングに起因します。精度と特異度は、誤報率を左右する運用上の重要指標だからです。私たちは、店舗あたり月額50〜100ドルでの実現可能性を示す詳細なコストモデルを提示します（商用代替手段より3〜10倍安い）。さらに、検出パイプライン内で顔を秘匿（obfuscate）するプライバシー保護設計も導入します。ソースコードは https://github.com/xHaileab/Paza-AI で公開されています。