要旨:トポロジーの正確性は、血管、神経繊維、道路網などのチューブ状構造にとって極めて重要です。既存のトポロジーを保持する方法は、ドメイン固有のグラウンドトゥルースに依存しており、それはコストがかかり、ドメイン間での移行は稀です。注釈のない新しいドメインに配備された場合、重要な問題が生じます:グラウンドトゥルースによる監督なしでトポロジー異常をどのように検出できるのでしょうか。これを、予測されたセグメンテーションマスクのトポロジーエラーを位置と分類するモデルを必要とする、構造化された視覚的推論タスクであるトポロジー異常検出として再定義します。Vision-Language Models(VLMs)は自然な候補ですが、最先端のVLMsはほぼランダムに近い性能を示し、高密度構造におけるまばらな接続エラーを識別するために必要な、細かなトポロジー認識を欠いています。このギャップを埋めるため、段階的に難易度を上げる複数のレベルにまたがる検証可能な注釈を伴う多様なトポロジー異常を合成する自動データキュレーションパイプラインを開発し、このタスクの初の大規模・マルチドメインベンチマークを構築します。次に、Topo-R1 を導入します。Topo-R1 は、二段階の訓練(教師ありファインチューニングに続く、Group Relative Policy Optimization(GRPO)による強化学習)を通じて、VLM にトポロジー認識の知覚を付与するフレームワークです。私たちのアプローチの中心には、構造化エラー分類のための型認識ハンガリアンマッチング、空間的局在スコアリング、および接続性障害を直接罰するセンターライン Dice(clDice)報酬を統合した、トポロジー認識の複合報酬があります。これにより、意味的精度と構造的忠実度の両方を共同で促進します。広範な実験により、Topo-R1 は注釈なしのトポロジー品質評価の新しいパラダイムを確立し、全評価プロトコルにおいて、一般目的の VLMs および教師ありベースラインを一貫して上回ることを示しています。
Topo-R1: Vision-Language Modelsによるトポロジー的異常の検出
arXiv cs.CV / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トポロジー的一貫性を、管状構造のセグメンテーションマスクにおけるトポロジー的異常検出として再定義し、アノテーション不要で域を跨いだ検出を可能にする。
- 最先端の Vision-Language Models は、トポロジーを意識したタスクでほぼランダムに近い性能しか示さず、密な構造におけるまばらな連結エラーの検出の限界を浮き彫りにしている。
- 著者らは、段階的に難易度を高めながら検証可能なアノテーションとともに多様なトポロジー異常を合成する自動データキュレーションパイプラインを導入し、本タスクの初の大規模かつ多ドメインベンチマークを構築する。
- 彼らは Topo-R1 を提案する。これは、監督付きファインチューニングに続く、Group Relative Policy Optimization (GRPO) を用いた強化学習を組み合わせた2段階のトレーニングフレームワークであり、タイプ認識に基づく Hungarian マッチング、空間的局在スコアリング、中心ライン Dice (clDice) 報酬を統合したトポロジー対応の複合報酬を用いる。
- 広範な実験により、Topo-R1 はトポロジー品質評価の新しいアノテーション不要パラダイムを確立し、評価プロトコル全体で一般用途の VLMs および教師付きベースラインを一貫して上回ることを示した。
