THFM：4D人間知覚とその先のための統一型ビデオ基盤モデル

arXiv cs.CV / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

THFMは、密な人間知覚タスク（深度、法線、セグメンテーション、デンスポーズ）と疎なタスク（2D/3Dキーポイント）を、1つのアーキテクチャで同時に行う統一型ビデオ基盤モデルとして提案される。
本モデルは、事前学習済みのテキストから動画への拡散モデルを適応し、単一のフォワードパスで知覚を行うシステムとして構築される。さらに、疎な予測出力を支えるための学習可能なトークンを追加する。
THFMは、テキストプロンプトのモジュレーションにより複数の知覚タスクを切り替えることができ、プロンプト駆動の「1つのモデルで多様なタスク」を実現する。
合成動画データのみで学習しているにもかかわらず、複数のベンチマークにおいて、専門モデルを上回る、または同等の最先端（SOTA）結果を達成する。
本論文は、創発的な一般化挙動も報告している。例えば、単一人物のシーンで学習した後に、複数人物のシーンや新しい物体カテゴリ（擬人化キャラクターや動物など）へ適用できる。

Abstract

本稿では、人間中心の知覚のための統一的なビデオ基盤モデルであるTHFMを提案する。THFMは、密なタスク（深度、法線、セグメンテーション、デンスポーズ）と、疎なタスク（2d/3dのキーポイント推定）を単一のアーキテクチャ内で同時に扱う。THFMは、事前学習済みのテキストからビデオへの拡散モデルから派生しており、それを単一の前向きパスで動作する知覚モデルとして再利用し、疎な予測のための学習可能トークンによって拡張している。テキストプロンプトによって変調されることで、我々の単一の統一モデルは様々な知覚タスクを実行できる。重要な点として、THFMは合成データのみで学習されているにもかかわらず（すなわち、実世界データやベンチマーク固有のデータでは学習していないにもかかわらず）、多様なベンチマークにおいて、最先端の専門モデルと同等、あるいはそれらを上回る性能を示す。さらに、本モデルには基盤となる拡散ベースのビデオ表現に起因すると考えられる、興味深い創発的性質があることを強調する。例えば、本モデルをシーン内に1人の人間が登場するビデオで学習すると、複数の人間や、擬人化キャラクタ、動物などの他の対象クラスへと一般化できるという点が挙げられる。この能力は過去には実証されていなかった。