発表タイプ: new
要旨: 潜在オブジェクトの識別は、さまざまなコンピュータビジョンアプリケーションにおけるオブジェクト認識と分析にとって重要です。既存の手法は通常、標本画像、事前定義されたカテゴリー、またはテキスト記述に依存して潜在オブジェクトを局所化します。しかし、画像とテキストプロンプトへの依存は柔軟性を制限することが多く、実世界のシナリオでの適応性を制約します。本論文では、外部プロンプトに依存せず潜在オブジェクトを識別する新規な Prompt-Free Universal Region Proposal Network (PF-RPN) を提案します。まず、Sparse Image-Aware Adapter (SIA) モジュールは、視覚特徴で動的に更新される学習可能なクエリ埋め込みを用いて潜在オブジェクトの初期局所化を行います。次に、Cascade Self-Prompt (CSP) モジュールは、自己プロンプトされた学習可能な埋め込みを活用して残りの潜在オブジェクトを特定し、階層的に有益な視覚特徴を自動的に統合します。最後に、Centerness-Guided Query Selection (CG-QS) モジュールは、センター性スコアリングネットワークを用いて高品質なクエリ埋め込みの選択を促進します。我々の手法は、限られたデータ(例:MS COCO データの5%程度)で最適化でき、ファインチューニングを行わなくても、水中物体検出、産業欠陥検出、リモートセンシング画像物体検出など、さまざまな物体検出アプリケーション分野に直接適用して潜在オブジェクトを識別できます。19のデータセットにわたる実験結果は、我々の手法の有効性を検証しています。コードは https://github.com/tangqh03/PF-RPN に公開されています。
プロンプト不要のユニバーサル領域提案ネットワーク
arXiv cs.CV / 2026/3/19
📰 ニュースModels & Research
要点
- 本論文は、外部プロンプトに頼らず潜在的な物体を識別する方法として、プロンプトフリーのユニバーサル領域提案ネットワーク(PF-RPN)を提案する。
- 本手法は3つのモジュールで構成される。初期局在化を担当する Sparse Image-Aware Adapter (SIA)、残りの物体を発見する Cascade Self-Prompt (CSP)、高品質なクエリ埋め込みを選択する Centerness-Guided Query Selection (CG-QS)。
- PF-RPN は、MS COCO の 5% 程度などの限られたデータ量で最適化でき、ファインチューニングを要せず水中物体検出、産業欠陥検出、リモートセンシングといった多様なドメインへ直接適用可能である。
- 19 のデータセットにおける実験結果は、ドメイン横断性の高い有効性と一般化性能を示している。
- 著者は、リンクされた GitHub リポジトリにコードを公開している。
関連記事
次世代LLM推論技術: Flash-MoE から Gemini Flash-Lite、そしてローカルGPU活用へ
Dev.to
オープンソースAIの波とセキュリティへの投資: Qwen、Microsoft、Google の動向
Dev.to

AIモデルがクリエイティブな文章を書けないのは初期モデルに見られた創造性や独創性を抑制してビジネス用途に特化させたせいだという指摘
GIGAZINE
RLax、JAX、Haiku、Optax を用いてスクラッチから Deep Q-Learning(DQN)を実装し、カートポール環境の強化学習エージェントを訓練する
MarkTechPost
[D]SQLのみで分類器を訓練する(反復的最適化なし)
Reddit r/MachineLearning