THFM:4D人間知覚とその先のための統一型ビデオ基盤モデル
arXiv cs.CV / 2026/3/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- THFMは、密な人間知覚タスク(深度、法線、セグメンテーション、デンスポーズ)と疎なタスク(2D/3Dキーポイント)を、1つのアーキテクチャで同時に行う統一型ビデオ基盤モデルとして提案される。
- 本モデルは、事前学習済みのテキストから動画への拡散モデルを適応し、単一のフォワードパスで知覚を行うシステムとして構築される。さらに、疎な予測出力を支えるための学習可能なトークンを追加する。
- THFMは、テキストプロンプトのモジュレーションにより複数の知覚タスクを切り替えることができ、プロンプト駆動の「1つのモデルで多様なタスク」を実現する。
- 合成動画データのみで学習しているにもかかわらず、複数のベンチマークにおいて、専門モデルを上回る、または同等の最先端(SOTA)結果を達成する。
- 本論文は、創発的な一般化挙動も報告している。例えば、単一人物のシーンで学習した後に、複数人物のシーンや新しい物体カテゴリ(擬人化キャラクターや動物など)へ適用できる。




