TSM-Pose：セマンティックMambaによるトポロジー対応学習で行うカテゴリ別オブジェクト姿勢推定

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未知のインスタンスへの汎化を改善することを目的とした、カテゴリ別オブジェクト姿勢推定のためのトポロジー対応フレームワーク「TSM-Pose」を提案しています。
点群のグローバルトポロジーを捉える「Topology Extractor」を導入し、それをローカルな幾何学的特徴と統合して、カテゴリ別構造をより頑健に表現できるようにしています。
「MambaベースのGlobal Semantic Aggregator」により、キーポイントへ意味的な事前知識を注入し、複数のTwinMambaブロックで長距離の依存関係をモデリングして、グローバル特徴の集約を強化します。
REAL275、CAMERA25、HouseCat6Dの3つのベンチマーク実験で、TSM-Poseが既存の最先端手法より高い性能を示したと報告されています。

要旨: カテゴリ別の物体姿勢推定は身体化された知能にとって基礎的である一方、未見のインスタンスに対して頑健に汎化を実現することは依然として難しい。しかし、既存の手法は主に単純な特徴抽出と集約に依存しており、カテゴリに共有された位相（トポロジー）的構造を捉えたり、意味的キーポイントのモデリングを行ったりすることが難しく、その結果、汎化が制限されている。これらに対処するため、カテゴリ別 \\textbf{P}o\textbf{S}e推定のためのフレームワーク（TSM-Pose）として、\textbf{T}opology-Aware Learning with \textbf{S}emantic \textbf{M}amba を提案する。具体的には、点群のグローバルな位相表現を捉えるための Topology Extractor を導入し、これを局所的な幾何学的特徴に統合することで、頑健なカテゴリ別の構造表現を可能にする。同時に、Mamba ベースの Global Semantic Aggregator を提案し、キーポイントに意味の事前知識を注入することでその表現力を高め、さらに複数の TwinMamba ブロックを用いて長距離の依存関係をモデル化し、より効果的なグローバル特徴集約を実現する。3 つのベンチマークデータセット（REAL275、CAMERA25、HouseCat6D）での大規模な実験により、TSM-Pose が既存の最先端手法を上回ることを示す。