LP$^{2}$DH:動的テクスチャ認識のための局所性を保持するピクセル差分ハッキングフレームワーク

arXiv cs.CV / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文では、広く使われているSTLBP記述子が持つ非常に高い次元数という課題に対処するため、LP$^{2}$DHという新しいハッキングフレームワークを提案しています。
  • 異なる直交平面ごとに特徴を計算して相関を犠牲にするのではなく、LP$^{2}$DHは時空間近傍全体でピクセル差分を共同でエンコードし、コンパクトなバイナリコードへ変換します。
  • ハッキング前後でPDV(Pixel-Difference Vectors)の局所構造を保つために、局所性を保持する埋め込みを用い、ハッシュ行列とコードをStiefel多様体上での勾配降下(曲線探索戦略を含む)により最適化します。
  • ハッキング後は、辞書学習でバイナリベクトルをコードワードへ変換し、ヒストグラムを最終的な特徴表現として利用します。
  • UCLA、DynTex++、YUPENNの3つのベンチマークで既存手法を上回る最先端性能が報告され、コードはGitHubで公開されています。

要旨: 時空間ローカル2値パターン(STLBP)は広く用いられている動的テクスチャ記述子ですが、非常に高い次元性に悩まされています。これに対処するため、STLBPの特徴はしばしば3つの直交平面上で抽出されますが、これにより平面間の相関が犠牲になります。本研究では、フルの時空間近傍における画素差を同時に符号化する、局所性保持型ピクセル差ハッシング(LP^{2}DH)フレームワークを提案します。LP^{2}DHは、ピクセル差ベクトル(PDV)を、弁別力を最大化するコンパクトなバイナリコードへと変換します。さらに、ハッシングの前後でPDVの局所的な構造を維持するため、局所性保持型の埋め込みを組み込みます。その後、曲線状の探索戦略を用いて、Stiefel多様体上での勾配降下により、ハッシング行列とバイナリコードを共同で最適化します。ハッシングの後、辞書学習を適用してバイナリベクトルをコードワードとして符号化し、得られたヒストグラムを最終的な特徴表現として用います。提案するLP^{2}DHは、3つの主要な動的テクスチャ認識ベンチマークにおいて最先端の性能を達成します。UCLAでDT-GoogleNetの98.93%に対し99.80%、DynTex++でHoGF^{3D}の97.63%に対し98.52%、YUPENNでSTSの95.00%に対し96.19%です。ソースコードは以下で入手可能です: https://github.com/drx770/LP2DH.