RiO-DETR: 実時間指向オブジェクト検出のためのDETR

arXiv cs.CV / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • RiO-DETRは、指向境界ボックス(OBB)検出に特有の課題である意味依存の方向性、角度の周期性、拡大された探索空間に対応するために設計された、初の実時間指向検出トランスフォーマーとして紹介される。
  • 本モデルは、角度を位置クエリから分離し、方向性の手がかりを効果的に捉えるために、Content-Driven Angle Estimation(内容駆動角度推定)とRotation-Rectified Orthogonal Attention(回転補正直交注意)を用いる。
  • Decoupled Periodic Refinement(分離周期的洗練)とShortest-Path Periodic Loss(最短経路周期損失)を用いて安定した角度学習を実現し、追加の計算コストなしに角度収束を促進するOriented Dense O2O監督を採用している。
  • DOTA-1.0、DIOR-R、FAIR-1M-2.0などのデータセットでの広範な実験により、RiO-DETRは実時間指向オブジェクト検出において優れた速度と精度のトレードオフを達成することが示された。
  • RiO-DETRのコードは公開予定であり、指向オブジェクト検出タスクのさらなる研究と実用化を促進する。

計算機科学 > コンピュータビジョンとパターン認識

arXiv:2603.09411 (cs)
[2026年3月10日に投稿]

タイトル:RiO-DETR: Real-time Oriented Object Detection のためのDETR

Zhangchi Hu とほか10名の著者による「RiO-DETR: Real-time Oriented Object Detection のためのDETR」という題名の論文のPDFを表示
PDFを表示 HTML(実験的)
概要:我々は、我々の知る限り初のリアルタイム指向検出トランスフォーマーである「RiO-DETR: Real-time Oriented Object Detection のためのDETR」を提案する。DETRを指向バウンディングボックス(OBB)に適応するには、3つの課題がある。すなわち、意味に依存する向き、標準的なユークリッド整形を破壊する角度の周期性、そして収束を遅くする拡大された探索空間である。RiO-DETRは、リアルタイムの効率を維持しつつ、これらの問題をタスクネイティブな設計によって解決する。第一に、角度を位置クエリから切り離すことで、角度駆動型の角度推定(Content-Driven Angle Estimation)を提案し、信頼できる向きのために補完的な手がかりを捉えるための、回転で正規化された直交注意(Rotation-Rectified Orthogonal Attention)を併せて用いる。第二に、デカップルされた周期的整形(Decoupled Periodic Refinement)は、上限制約付きの粗いから細かい更新を組み合わせ、角度の継ぎ目(angular seams)をまたいだ安定した学習のために最短経路に基づく周期損失(Shortest-Path Periodic Loss)を導入する。第三に、指向密なO2O(Oriented Dense O2O)は、追加コストなしで角度の収束を加速するために、密な教師信号へ角度の多様性を注入する。DOTA-1.0、DIOR-R、FAIR-1M-2.0における大規模な実験により、RiO-DETRがリアルタイム指向検出に向けた新しい速度と精度のトレードオフを確立することを示す。コードは公開予定である。
コメント:
分野: コンピュータビジョンとパターン認識(cs.CV)
引用形式: arXiv:2603.09411 [cs.CV]
  (またはこのバージョンでは arXiv:2603.09411v1 [cs.CV]
  https://doi.org/10.48550/arXiv.2603.09411
さらに詳しく学ぶためにフォーカス
DataCite 経由で発行された arXiv DOI

投稿履歴

差出人: Zhangchi Hu [メールを見る]
[v1] 2026年3月10日(火)09:25:20 UTC(11,835 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
次の方法で閲覧するには:
cs
BibTeX の引用をエクスポート 読み込み中...

BibTeX 形式の引用

×
データ提供:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

Bibliographic Explorer の切り替え
Bibliographic Explorer (Explorer とは?)
Connected Papers の切り替え
Connected Papers (Connected Papers とは?)
Litmaps の切り替え
Litmaps (Litmaps とは?)
scite.ai の切り替え
scite Smart Citations (Smart Citations とは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv の切り替え
alphaXiv (alphaXiv とは?)
返却形式: {"translated": "翻訳されたHTML"}
コードへのリンクの切り替え
論文のための CatalyzeX コードファインダー (CatalyzeX とは?)
DagsHub の切り替え
DagsHub (DagsHub とは?)
GotitPub の切り替え
Gotit.pub (GotitPub とは?)
Huggingface の切り替え
Hugging Face (Huggingface とは?)
コードへのリンクの切り替え
Papers with Code (Papers with Code とは?)
ScienceCast の切り替え
ScienceCast (ScienceCast とは?)
デモ

デモ

Replicate の切り替え
Replicate (Replicate とは?)
Spaces の切り替え
Hugging Face Spaces (Spaces とは?)
Spaces の切り替え
TXYZ.AI (TXYZ.AI とは?)
関連論文

レコメンダーと検索ツール

Influence Flower へのリンク
Influence Flower (Influence Flower とは?)
Core recommender トグル
CORE Recommender (CORE とは?)
arXivLabs について

arXivLabs:コミュニティの協力者とともに行う実験的なプロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするフレームワークです。

arXivLabs に取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、受容してきました。arXiv はこれらの価値観にコミットしており、それらを順守するパートナーのみと協働します。

arXiv のコミュニティに価値を追加するプロジェクトのアイデアはありますか? arXivLabs について詳しく知る