視覚のためのライトコーン：視覚階層のための単純な因果事前分布

arXiv cs.LG / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、標準的な視覚モデルが物体を独立したユークリッド点として表現するため、「全体の中の部品」といった階層的な構造を捉えるのが難しいと主張する。
そこでWorldline Slot Attentionを提案し、物体を時空間上の持続的な軌跡（worldline）として表現する。階層レベルごとに複数のスロットを用い、空間的位置は共有しつつ、時間座標が異なるようにする。
実験では、ユークリッドなworldlineは性能が低く（精度0.078でランダム予測を下回る）のに対し、ローレンツ（Lorentzian）なworldlineは大幅に高い精度（0.479〜0.661）を達成し、20回以上の実行で報告されている6倍の改善が再現された。
著者らは、ローレンツ幾何（因果／ライトコーン）が双曲線埋め込みよりも優れており、視覚階層の形成は、純粋に木構造の放射状分岐だけに依存するのではなく、不対称な因果・時間構造に基づくことを示唆している。
本手法は11Kパラメータのみで済むとされ、さらなる探索のためのコードがGitHubで公開されている。

note

note

note

note

note