ViHOI:視覚的事前知識による人と物体のインタラクション合成
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2D画像からインタラクションの「事前知識(priors)」を抽出することで、テキストのみの制約に頼らずに、現実的で物理的に妥当な3Dの人-物体インタラクションを生成する拡散ベースのフレームワーク「ViHOI」を提案する。
- 大規模な視覚言語モデル(VLM)を用いて視覚的事前知識を抽出し、さらに層を分離した戦略によって視覚とテキストの双方の事前知識シグナルを得る。
- Q-Formerベースのアダプタによって、VLMの高次元表現をコンパクトな事前知識トークンへ圧縮し、拡散モデルの条件付き学習をより効果的に可能にする。
- ViHOIは、モーションをレンダリングした画像で学習し、参照となる視覚情報とモーション系列との意味的整合を強制する。一方、推論時にはテキストから画像を生成するモデルで合成した参照画像を用いることで、未見の物体やインタラクションカテゴリに対する汎化性能を向上させる。
- 実験結果では、最先端(SOTA)の性能、より強いベンチマーク成績、ならびに従来手法よりも改善された汎化が報告されている。