トランスフォーマーを用いたテクスチャ付き非多様体3Dメッシュのセマンティックセグメンテーション

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テクスチャ付きの非多様体3Dメッシュに対するセマンティックセグメンテーションのための、テクスチャ対応トランスフォーマーを提案する。これにより、不規則なメッシュ構造という困難を扱いつつ、生の「面（face）に関連付けられたピクセル」から得られるテクスチャ情報を活用する。
階層的なマルチスケール特徴集約の手法を導入し、学習可能なトークンへピクセルを集約するテクスチャブランチと、Two-Stage Transformer Blockで処理される幾何学的記述子を組み合わせることで、局所情報と大域情報のバランスを取る。
Semantic Urban Meshes（SUM）ベンチマークでの実験により、強い性能が示されている（81.9% mF1、94.3% OA）。さらに、新たにキュレーションした文化遺産の屋根瓦タイル・データセットでも評価を行い（49.7% mF1、72.8% OA）、同様に有効性が確認される。
本手法は既存手法を大幅に上回り、トランスフォーマー・アーキテクチャにおいてテクスチャと幾何を共同でモデル化することが、複雑なメッシュに対する面ごとのセマンティック／損傷タイプ予測を改善できることを示している。

要旨: テクスチャ付きの3Dメッシュは、幾何、トポロジ、外観を共同で表現しますが、その不規則な構造は、深層学習に基づく意味セマンティックセグメンテーションにとって大きな課題となります。最近のいくつかの手法は、幾何学的な制約を課すことなく、メッシュに直接動作するものの、そうしたメッシュが提供する豊かなテクスチャ情報を見落とすことがしばしばあります。本研究では、各メッシュ面に関連付けられた生のピクセルから直接学習する、テクスチャ対応トランスフォーマを提案します。さらに、多スケール特徴集約のための新しい階層学習スキームを併せて導入します。テクスチャ分岐は、全ての面レベルのピクセルを学習可能なトークンとして要約し、これを幾何学的記述子と融合させ、Two-Stage Transformer Blocks（TSTB）のスタックによって処理します。TSTBは、局所的およびグローバルな情報の流れの両方を可能にします。本モデルを、Semantic Urban Meshes（SUM）ベンチマークおよび、新たにキュレーションした文化遺産データセットで評価します。このデータセットは、損傷タイプのための三角形レベル注釈を備えたテクスチャ付き屋根瓦で構成されています。提案手法は、SUMにおいて81.9\%のmF1と94.3\%のOAを達成し、新データセットにおいては49.7\%のmF1と72.8\%のOAを達成し、既存手法を大幅に上回ります。