動的3Dシーンからのピクセル特徴量化:線形インコンテキスト・ラーナー
arXiv cs.CV / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存の視覚基盤モデルはピクセルレベルで空間と時間(spatio-temporal)の性質を十分に埋め込めていないと指摘している。
- 動画からピクセル精度の特徴記述子を学習することで、密なピクセルレベル予測をスケールさせる枠組みLILAを提案する。
- LILAの中核は「線形インコンテキスト学習」であり、深度やモーションといったspatio-temporalキューマップを、既製のネットワークで推定して利用する。
- 推定される深度・モーションはノイズを含み得るが、未整理の動画データセットでも効果的に学習でき、意味的・幾何学的性質を時系列的に一貫した埋め込みとして獲得する。
- 得られた表現は、動画オブジェクトセグメンテーション、表面法線推定、セマンティックセグメンテーションといった多様なタスクで有望な実験結果を示している。




