要旨: 4Dの人-物体インタラクション(HOI)をモデリングすることは、コンピュータビジョンにおける魅力的な課題であり、バーチャルおよび複合現実アプリケーションを支える本質的な技術です。既存研究では、テキストに条件付けしたHOI生成や、物体の動きから人間の動きを生成するなど、特定のHOIタスクにおいて有望な結果が得られてきました。しかし、それらは通常、タスク固有のアーキテクチャに依存しており、多様な条件入力を扱える統一的な枠組みが欠けています。そこで本研究では、テキスト、人間の運動、物体の運動の間の同時分布を学習する統一フレームワークであるUni-HOIを提案します。大規模言語モデル(LLM)と、運動に特化した2つのベクトル量子化変分オートエンコーダ(VQ-VAE)を活用することで、異種の運動データをLLM入力と互換なトークン列へと変換し、3つのモダリティすべてをシームレスに統合して共同モデリングできるようにします。また、2段階の学習戦略を導入します。第1段階では、大規模なHOIデータセット上でマルチタスク学習を行い、3つのモダリティ間に存在する基盤的な相関を捉えます。第2段階では、特定のタスクに対してモデルを微調整し、性能をさらに高めます。大規模な実験により、Uni-HOIが、統一フレームワークのもとで、テキスト主導のHOI生成、物体の動き主導の人間の運動生成(任意でテキストを併用)、および人間の運動主導の物体の運動予測といった複数のHOI関連タスクにおいて顕著な性能を達成することを示します。
Uni-HOI:テキストと人・物体インタラクションの同時分布を学習するための統一フレームワーク
arXiv cs.CV / 2026/5/1
📰 ニュースModels & Research
要点
- この論文は、4Dの人・物体インタラクション(HOI)において、テキスト・人の動き・物体の動きの同時分布を扱う「統一フレームワーク」Uni-HOIを提案しています。
- Uni-HOIは、LLM(大規模言語モデル)と2つのモーション専用VQ-VAEを用いて、異なる種類のモーションデータをLLM入力可能なトークン列へ変換します。
- 学習は2段階で行い、まず大規模HOIデータセットでマルチタスク学習により3モダリティ間の相関を獲得し、次にタスク固有のファインチューニングで精度を高めます。
- 実験では、Uni-HOIが単一の枠組みで複数のHOI関連タスク(テキスト駆動のHOI生成、物体の動きから人の動きを予測、また必要に応じてテキスト付きで人/物体の運動予測など)に対応できることが示されています。




