動的3Dシーンからのピクセル特徴量化：線形インコンテキスト・ラーナー

arXiv cs.CV / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の視覚基盤モデルはピクセルレベルで空間と時間（spatio-temporal）の性質を十分に埋め込めていないと指摘している。
動画からピクセル精度の特徴記述子を学習することで、密なピクセルレベル予測をスケールさせる枠組みLILAを提案する。
LILAの中核は「線形インコンテキスト学習」であり、深度やモーションといったspatio-temporalキューマップを、既製のネットワークで推定して利用する。
推定される深度・モーションはノイズを含み得るが、未整理の動画データセットでも効果的に学習でき、意味的・幾何学的性質を時系列的に一貫した埋め込みとして獲得する。
得られた表現は、動画オブジェクトセグメンテーション、表面法線推定、セマンティックセグメンテーションといった多様なタスクで有望な実験結果を示している。