AI Navigate

リアルタイムであらゆるものを検出:単一プロンプトによるセグメンテーションからマルチクラス検出へ

arXiv cs.CV / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

要点

  • DART は、トレーニング不要のフレームワークで、SAM3 をリアルタイムのマルチクラス検出器へ変換します。これは視覚バックボーンのクラス非依存性を利用し、すべてのクラスでバックボーン計算を共有でき、推論コストを O(N) から O(1) に削減します。
  • バッチ処理によるマルチクラスデコード、検出専用推論、TensorRT FP16 展開を組み合わせることで、3クラスで累積的に5.6倍、80クラスで最大25倍の速度向上を、モデルの重みを変更することなく実現します。
  • COCO val2017(5,000枚の画像、80クラス)上で、1台の RTX 4080 上で 4 クラス、解像度 1008x1008、15.8 FPS のとき 55.8 AP を達成し、数百万のボックス注釈で訓練された専用のオープンボキャブラリ検出器を上回ります。
  • 極端な遅延目標には、凍結したエンコーダ-デコーダを用いたアダプタ蒸留が、13.9 ms のバックボーンで 38.7 AP を達成します。
  • DART のコードとモデルは、プロジェクトの GitHub リポジトリ https://github.com/mkturkcan/DART に公開されています。
Abstract: 視覚と言語モデリングの最近の進歩は、推論時に任意の自然言語クエリを受け付けるプロンプト対応の検出およびセグメンテーションシステムを生み出しています。その中で、SAM3 は ViT-H/14 バックボーンとクロスモーダル・トランスフォーマーによるデコーディング、および学習済みのオブジェクトクエリを組み合わせることで最先端の精度を達成します。しかし、SAM3 はフォワードパスごとに1つのテキストプロンプトしか処理しません。N クラスを検出するには、それぞれが 439M パラメータのバックボーンを支配する N 回の独立した実行が必要です。我々は Detect Anything in Real Time (DART)、SAM3 をリアルタイムのマルチクラス検出器へ変換する、トレーニング不要のフレームワークを提示します。これは構造的不変量を利用します。すなわち、視覚的バックボーンはクラス非依存であり、テキストプロンプトに依存しない画像特徴を生成します。これによりバックボーン計算をすべてのクラス間で共有でき、コストを O(N) から O(1) に削減します。バッチ処理によるマルチクラスデコード、検出専用推論、TensorRT FP16 展開を組み合わせることで、これらの最適化は3クラスで累積的に5.6倍、80クラスで最大25倍のスピードアップを実現し、モデルの重みを一切変更することなく実現します。COCO val2017(5,000枚の画像、80クラス)上で、1台の RTX 4080 上で 4 クラス、解像度 1008×1008、15.8 FPS で 55.8 AP を達成し、数百万のボックス注釈で訓練された専用のオープンボキャブラリ検出器を上回ります。極端な遅延目標には、凍結したエンコーダ-デコーダを用いたアダプタ蒸留が、13.9 ms のバックボーンで 38.7 AP を達成します。コードおよびモデルは https://github.com/mkturkcan/DART で公開されています。