ローレンツ空間モデルによるセマンティックセグメンテーションのための枠組み

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、従来主流のポアンカレ球モデルの数値的不安定性・最適化・計算上の課題を改善するために、双曲空間でローレンツモデルを用いるセマンティックセグメンテーションの新しい枠組みを提案します。
  • テキスト埋め込み(意味的・視覚的手がかり)で階層的なピクセル表現をローレンツ空間に導き、ピクセル単位およびマスク単位の分類(セグメンテーション)を行います。
  • この手法は、リーマン最適化器を不要にしつつ、ローレンツ空間での安定かつ効率的な最適化を可能にし、既存のユークリッド系セグメンテーション構成への統合も容易です。
  • セグメンテーションの精度に加えて、信頼度マップや境界の描写などの不確実性推定を「追加コストなし」で提供し、階層・テキストに基づく検索やゼロショット性能にも対応します。
  • ADE20K、COCO-Stuff-164k、Pascal-VOC、Cityscapesで、DeepLabV3やSegFormer(ピクセル分類)およびmask2formerやmaskformer(マスク分類)といった最先端ベースラインを用いた広範な実験により有効性と汎用性が検証され、コードも公開されています。

要旨: 双曲空間におけるセマンティックセグメンテーションは、階層構造をコンパクトにモデル化できると同時に、本質的な不確実性の定量化も提供します。従来のアプローチの多くはポアンカレ球モデルに主に依存してきましたが、このモデルには数値的不安定性、最適化上の困難さ、計算上の課題があります。本研究では、双曲ローレンツモデルにおける新規で扱いやすい、アーキテクチャ非依存のセマンティックセグメンテーション手法(画素ごとの分類およびマスク分類)を提案します。ローレンツ空間内の階層的な画素レベル表現を導くために、意味的および視覚的手がかりを用いたテキスト埋め込みを採用します。これにより、リーマン最適化器を必要とせずに、安定かつ効率的な最適化が可能となり、既存のユークリッド型アーキテクチャに容易に統合できます。セグメンテーションにとどまらず、本手法は自由な不確実性推定、信頼度マップ、境界の輪郭化、階層的かつテキストに基づく検索、ゼロショット性能をもたらし、より一般化されたより平坦な極小値に到達します。さらに、ローレンツコーン埋め込みにおける新規の不確実性および信頼度指標を導入します。加えて、勾配解析を通じたローレンツ最適化のための解析的および実証的な知見を提供します。ADE20K、COCO-Stuff-164k、Pascal-VOC、Cityscapesに対する大規模な実験では、最先端の画素ごとの分類モデル(DeepLabV3およびSegFormer)とマスク分類モデル(mask2formerおよびmaskformer)を用いることで、本手法の有効性と汎用性が検証されます。結果は、頑健で不確実性を考慮したセマンティックセグメンテーションにおける双曲ローレンツ埋め込みの可能性を示しています。コードは https://github.com/mxahan/Lorentz_semantic_segmentation で利用可能です。