リアルタイムであらゆるものを検出：単一プロンプトによるセグメンテーションからマルチクラス検出へ

arXiv cs.CV / 2026/3/13

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

DART は、トレーニング不要のフレームワークで、SAM3 をリアルタイムのマルチクラス検出器へ変換します。これは視覚バックボーンのクラス非依存性を利用し、すべてのクラスでバックボーン計算を共有でき、推論コストを O(N) から O(1) に削減します。
バッチ処理によるマルチクラスデコード、検出専用推論、TensorRT FP16 展開を組み合わせることで、3クラスで累積的に5.6倍、80クラスで最大25倍の速度向上を、モデルの重みを変更することなく実現します。
COCO val2017（5,000枚の画像、80クラス）上で、1台の RTX 4080 上で 4 クラス、解像度 1008x1008、15.8 FPS のとき 55.8 AP を達成し、数百万のボックス注釈で訓練された専用のオープンボキャブラリ検出器を上回ります。
極端な遅延目標には、凍結したエンコーダ-デコーダを用いたアダプタ蒸留が、13.9 ms のバックボーンで 38.7 AP を達成します。
DART のコードとモデルは、プロジェクトの GitHub リポジトリ https://github.com/mkturkcan/DART に公開されています。

Abstract: 視覚と言語モデリングの最近の進歩は、推論時に任意の自然言語クエリを受け付けるプロンプト対応の検出およびセグメンテーションシステムを生み出しています。その中で、SAM3 は ViT-H/14 バックボーンとクロスモーダル・トランスフォーマーによるデコーディング、および学習済みのオブジェクトクエリを組み合わせることで最先端の精度を達成します。しかし、SAM3 はフォワードパスごとに1つのテキストプロンプトしか処理しません。N クラスを検出するには、それぞれが 439M パラメータのバックボーンを支配する N 回の独立した実行が必要です。我々は Detect Anything in Real Time (DART)、SAM3 をリアルタイムのマルチクラス検出器へ変換する、トレーニング不要のフレームワークを提示します。これは構造的不変量を利用します。すなわち、視覚的バックボーンはクラス非依存であり、テキストプロンプトに依存しない画像特徴を生成します。これによりバックボーン計算をすべてのクラス間で共有でき、コストを O(N) から O(1) に削減します。バッチ処理によるマルチクラスデコード、検出専用推論、TensorRT FP16 展開を組み合わせることで、これらの最適化は3クラスで累積的に5.6倍、80クラスで最大25倍のスピードアップを実現し、モデルの重みを一切変更することなく実現します。COCO val2017（5,000枚の画像、80クラス）上で、1台の RTX 4080 上で 4 クラス、解像度 1008×1008、15.8 FPS で 55.8 AP を達成し、数百万のボックス注釈で訓練された専用のオープンボキャブラリ検出器を上回ります。極端な遅延目標には、凍結したエンコーダ-デコーダを用いたアダプタ蒸留が、13.9 ms のバックボーンで 38.7 AP を達成します。コードおよびモデルは https://github.com/mkturkcan/DART で公開されています。

AIにイラスト作成を依頼するのは意外と難しい

note

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

note

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

note

リアルタイムであらゆるものを検出：単一プロンプトによるセグメンテーションからマルチクラス検出へ

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIにイラスト作成を依頼するのは意外と難しい

裏カツ 奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

時代劇のエンディング・テーマを目指したんですが。 〜Sunoで作曲〜

鳴かず飛ばずの過去記事が蘇る。AIに「今の時代に刺さる切り口」でリライトさせる錬金術。【コピペOK】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

裏カツ奏 #AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

時代劇のエンディング・テーマを目指したんですが。〜Sunoで作曲〜