混雑インスタンスセグメンテーションにおける強化ポイント選択を伴う高密度ポイント・トゥ・マスク最適化

arXiv cs.CV / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、混雑インスタンスセグメンテーションを扱う。一般的にデータセットはポイントラベルを提供するが、高品質な領域/マスクラベルは乏しく不正確であり、その結果、計数やローカライゼーションなど下流タスクの精度が制限される。
  • SAMとNearest Neighbor Exclusive Circle(NNEC)制約を組み合わせたDense Point-to-Mask Optimization(DPMO)を提案し、密な混雑ポイント注釈を改良されたマスク注釈へと変換する(必要に応じて手動補正も可能)。
  • 密なシーンでの予測のために、Reinforced Point Selection(RPS)を提案する。これは、インスタンス出力を生成する前に、サンプリングした候補から最良のポイントを選択するためにGroup Relative Policy Optimization(GRPO)を用いる。
  • 実験では、複数の混雑データセット(ShanghaiTech、UCF-QNRF、JHU-CROWD++、NWPU-Crowd)で最先端の性能を報告しており、著者らはマスクの教師あり損失がモデル横断で計数精度を大きく改善できることを示している。
  • 全体として本研究は、密な混雑セグメンテーションは、より良いポイント・トゥ・マスクの擬似ラベル生成と、標準的な基盤モデルのプロンプトをそのまま適用するのではなく強化スタイルのポイント選択によって改善できることを強調している。

要旨: 群衆のインスタンスセグメンテーションは、監視や交通を含む幅広い応用を持つ重要な課題である。現在、群衆データセットでは点ラベルが一般的である一方、領域ラベル(例: ボックス)は稀でかつ不正確である。セグメンテーションによって得られるマスクは、領域ラベルの精度を向上させるとともに、個々の位置座標と群衆密度マップとの対応関係を解決するのに役立つ。しかし、SAM のような現在よく使われる大規模基盤モデルをそのまま密集群衆に適用しても、理想的な結果は得られない。そこで本研究では、まず Dense Point-to-Mask Optimization(DPMO)を提案する。これは、SAM と Nearest Neighbor Exclusive Circle(NNEC)の制約を統合し、点アノテーションから密集したインスタンスセグメンテーションを生成する。DPMO と手動による修正により、既存の点アノテーションから従来型の群衆データセット向けのマスクアノテーションを作成する。次に、密集群衆におけるインスタンスセグメンテーションを予測するために、Group Relative Policy Optimization(GRPO)で学習された Reinforced Point Selection(RPS)フレームワークを提案する。この枠組みは、初期の点予測に対するサンプリングから、最も良い予測点を選択する。大規模な実験を通じて、ShanghaiTech、UCF-QNRF、JHU-CROWD++、および NWPU-Crowd の各データセットにおいて、最先端の群衆インスタンスセグメンテーション性能を達成する。さらに、複数のモデルにわたって計数性能を向上させる、マスクにより教師ありで設計された新しい損失関数を考案し、計数精度を高めるうえでマスクアノテーションが果たす重要な役割を示す。