GenMatter:生成的マテリアルモデルによる物体の知覚

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、「GenMatter」として、運動の手がかりと外観特徴を統合的に扱うことで物理的な物体を知覚するための生成モデルを提案します。
  • シーンを階層的に表現し、まず粒子(局所マテリアルを表す小さなガウス)として低レベルの手がかりをまとめ、次に粒子を、まとまりをもって独立に動く物理的実体に対応するクラスタへと集約します。
  • 並列化したブロックGibbsサンプリングに基づくハードウェア加速推論手法を開発し、粒子の安定した運動とクラスタリングを復元します。
  • 評価は3つの領域(2Dのランダムドット・キネマティクス、カモフラージュされた回転物体、自然画像風RGB動画)で行われ、人のような物体知覚、運動からの3D構造復元、変形物体の物体レベル追跡と理解の頑健性が示されます。
  • 本研究は、人間の視覚原理に基づく運動ベース知覚を強調し、多様な入力条件で既存のコンピュータビジョンが苦手とする部分を埋めることを目指しています。

Abstract

人間の視覚知覚は、運動に基づくシーン解釈の計算原理を理解するうえで有益な洞察を提供します。人間は、まばらに動くドットを観察するときでも、質感のある表面を見ているときでも、あるいは自然らしいシーンを見ているときでも、独立して動かせる物質の塊を構成する、動いている対象を頑健に検出し、分割します。対照的に、既存のコンピュータビジョンシステムには、これらの多様な状況すべてにまたがって機能する統一的なアプローチがありません。人間の知覚の原理に着想を得て、低レベルの運動手がかりと高レベルの外観特徴を粒子(局所的な物質を表す小さなガウス)へ階層的にグルーピングし、さらに粒子を、首尾一貫してかつ独立に動かせる物理的な実体を捉えるクラスタへグルーピングする生成モデルを提案します。私たちは、安定した粒子の運動とグルーピングを復元するために、並列化されたブロックGibbsサンプリングに基づくハードウェア加速推論アルゴリズムを開発します。このモデルは、ランダムドット、様式化されたテクスチャ、自然らしいRGBビデオといった異なる種類の入力上で動作し、生物学的視覚が成功する一方で既存のコンピュータビジョン手法がうまくいかない状況でも適用できることを可能にします。私たちはこの統一的枠組みを3つの領域で検証します。2Dのランダムドット運動図形では、曖昧な条件における段階的な不確実性を含む、人間の物体知覚を捉えることができます。ゲシュタルトに着想を得た、カモフラージュされた回転物体のデータセットでは、運動から正しい3D構造を復元し、それにより正確な2D物体分割を実現します。そして自然らしいRGBビデオでは、このモデルは変形する物体を構成する動く3Dの物質を追跡でき、頑健な物体レベルのシーン理解を可能にします。したがって本研究は、人間の視覚の原理に基づく運動に基づく知覚のための一般的な枠組みを確立します。