FILTR：事前学習済み3Dモデルから位相的特徴を抽出する

arXiv cs.CV / 2026/4/27

📰 ニュースModels & Research

共有:

要点

本論文は、Point-BERTやPoint-MAEのような事前学習済み3Dポイントクラウドエンコーダが生成する表現から、位相的記述子（永続性図）を抽出できるかを検証する。
位相的複雑さを制御・調整できる合成ベンチマークDONUTを新たに導入し、学習特徴からの位相復元を体系的に評価できるようにする。
FILTR（Filtration Transformer）として、凍結した3Dエンコーダの特徴から永続性図を直接予測する学習フレームワークを提案し、図生成を集合予測問題として扱うためにトランスフォーマーデコーダを用いる。
DONUTでの分析では、既存エンコーダが大域的な位相情報を保持する程度は限定的だが、それでもFILTRは保持されている信号を活用して永続性図を近似できることが示される。
提案手法は、生のポイントクラウドから効率的な学習型フィードフォワード機構によって永続性図を抽出する、データ駆動型の初の方法として位置づけられる。

概要: 最近の3Dポイントクラウドエンコーダの事前学習に関する進歩（例：Point-BERT、Point-MAE）は、高性能なモデルを生み出してきました。これらの能力は通常、幾何学的または意味論的なタスクで評価されます。一方で、位相的記述子が、形状の多尺度構造を有益に要約することが示されています。本論文では、3Dエンコーダによって生成された特徴から位相情報を導出できるのかという問いを提起します。この問いに取り組むために、まず、位相的複雑さを制御した合成ベンチマークDONUTを導入し、凍結したエンコーダから持続性図（パーシスタンス・ダイアグラム）を直接予測する学習可能な枠組みFILTR（Filtration Transformer）を提案します。FILTRは、図の生成を集合予測タスクとして扱うために、トランスフォーマーデコーダを適応させます。DONUTに対する本分析から、既存のエンコーダは限られた全体的な位相信号しか保持していないことがわかりますが、それでもFILTRはこれらのエンコーダによって生成された情報を活用して、持続性図を近似することに成功します。本手法は、効率的な学習可能なフィードフォワード機構を通じて、生のポイントクラウドから、初めてデータ駆動的に持続性図を抽出できることを可能にします。