野外における運動の予測

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚インテリジェンスには、予測エージェントの将来の行動を見通すための汎用的な表現が必要である一方、現在の視覚システムにはそれが欠けていると主張している。
そこで、運動と外観を切り分け、多様な非剛体のエージェント（例：野生動物）にまたがって一般化できる中間表現を作るために、密な点軌跡を「視覚トークン」として提案する。
著者らは、軌跡トークンの順序なし集合をモデル化し、遮蔽（オクルージョン）を明示的に扱う拡散トランスフォーマーを導入し、整合的な運動予測を生成する。
大規模な評価を支えるために、ショット検出とカメラ運動補償を備えた、300時間規模の制約なし動物動画データセットを整備している。
実験結果は、軌跡トークンの予測がカテゴリに依存せず、データ効率が高く、従来のベースラインを上回り、稀少種や多様な形態にも一般化できることを示しており、現実世界における予測型の視覚インテリジェンスの実現を目指している。

AI Business

AI-SCHOLAR

日経XTECH

ChinaTalk

Dev.to