視覚のためのライトコーン:視覚階層のための単純な因果事前分布

arXiv cs.LG / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的な視覚モデルが物体を独立したユークリッド点として表現するため、「全体の中の部品」といった階層的な構造を捉えるのが難しいと主張する。
  • そこでWorldline Slot Attentionを提案し、物体を時空間上の持続的な軌跡(worldline)として表現する。階層レベルごとに複数のスロットを用い、空間的位置は共有しつつ、時間座標が異なるようにする。
  • 実験では、ユークリッドなworldlineは性能が低く(精度0.078でランダム予測を下回る)のに対し、ローレンツ(Lorentzian)なworldlineは大幅に高い精度(0.479〜0.661)を達成し、20回以上の実行で報告されている6倍の改善が再現された。
  • 著者らは、ローレンツ幾何(因果/ライトコーン) が双曲線埋め込みよりも優れており、視覚階層の形成は、純粋に木構造の放射状分岐だけに依存するのではなく、不対称な因果・時間構造に基づくことを示唆している。
  • 本手法は11Kパラメータのみで済むとされ、さらなる探索のためのコードがGitHubで公開されている。