AI Navigate

Pointy - 点群ファウンデーションモデルのための軽量トランスフォーマー

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

要点

  • Pointyは、点群ファウンデーションモデルのための軽量トランスフォーマーベースのアーキテクチャを導入し、クロスモーダル監視への依存を減らします。
  • 本モデルはわずか39kの点群で訓練されながら、200kを超える訓練サンプルで訓練された複数の大規模ファウンデーションモデルを上回り、データ量の仮定に異議を唱えます。
  • 著者らは、アーキテクチャの寄与を分離し、トークナイザーフリーのバックボーンを比較するため、標準化された訓練レジームを用いた包括的な再現研究を実施します。
  • 結果は、単純なバックボーンでも、データ量・モダリティに富むモデルが達成する最先端の結果に近づくことを示しており、慎重な設計の価値を際立たせます。
  • 本研究は、より広範な再現・利用のため、オープンソースのコード、事前訓練済みモデル、および訓練プロトコルをGitHubに提供します。
点群データのファウンデーションモデルは、最近、言語や視覚からの広範な表現学習を活用することで能力が高まっています。本研究では、軽量なトランスフォーマーベースの点群アーキテクチャを導入することで、より制御されたアプローチをとります。クロスモーダル監視への過度な依存とは対照的に、我々のモデルはわずか39k点群のみで訓練されますが、200kを超える訓練サンプルで訓練された複数の大規模ファウンデーションモデルを上回る性能を示します。興味深いことに、我々の手法は、点群・画像・テキストのデータを合計で100万を超える規模で訓練したモデルの最先端の結果に近づくことを示しています。これは、慎重にキュレーションされた訓練設定とアーキテクチャの価値を示しています。厳密な評価を確保するため、訓練レジームを標準化し、複数の点群アーキテクチャにわたるベンチマークを統一した再現研究を実施します。この統一された実験フレームワークは、アーキテクチャの選択の影響を分離し、透明な比較を可能にし、我々の設計および他のトークナイザーフリーアーキテクチャの利点を浮き彫りにします。我々の結果は、単純なバックボーンが、より複雑またはデータ量に富む戦略と競合する成果をもたらすことを示しています。実装にはコード、事前訓練済みモデル、訓練プロトコルを含み、https://github.com/KonradSzafer/Pointy で入手可能です。