Uni-HOI：テキストと人・物体インタラクションの同時分布を学習するための統一フレームワーク

arXiv cs.CV / 2026/5/1

📰 ニュースModels & Research

共有:

要点

この論文は、4Dの人・物体インタラクション（HOI）において、テキスト・人の動き・物体の動きの同時分布を扱う「統一フレームワーク」Uni-HOIを提案しています。
Uni-HOIは、LLM（大規模言語モデル）と2つのモーション専用VQ-VAEを用いて、異なる種類のモーションデータをLLM入力可能なトークン列へ変換します。
学習は2段階で行い、まず大規模HOIデータセットでマルチタスク学習により3モダリティ間の相関を獲得し、次にタスク固有のファインチューニングで精度を高めます。
実験では、Uni-HOIが単一の枠組みで複数のHOI関連タスク（テキスト駆動のHOI生成、物体の動きから人の動きを予測、また必要に応じてテキスト付きで人/物体の運動予測など）に対応できることが示されています。

要旨: 4Dの人-物体インタラクション（HOI）をモデリングすることは、コンピュータビジョンにおける魅力的な課題であり、バーチャルおよび複合現実アプリケーションを支える本質的な技術です。既存研究では、テキストに条件付けしたHOI生成や、物体の動きから人間の動きを生成するなど、特定のHOIタスクにおいて有望な結果が得られてきました。しかし、それらは通常、タスク固有のアーキテクチャに依存しており、多様な条件入力を扱える統一的な枠組みが欠けています。そこで本研究では、テキスト、人間の運動、物体の運動の間の同時分布を学習する統一フレームワークであるUni-HOIを提案します。大規模言語モデル（LLM）と、運動に特化した2つのベクトル量子化変分オートエンコーダ（VQ-VAE）を活用することで、異種の運動データをLLM入力と互換なトークン列へと変換し、3つのモダリティすべてをシームレスに統合して共同モデリングできるようにします。また、2段階の学習戦略を導入します。第1段階では、大規模なHOIデータセット上でマルチタスク学習を行い、3つのモダリティ間に存在する基盤的な相関を捉えます。第2段階では、特定のタスクに対してモデルを微調整し、性能をさらに高めます。大規模な実験により、Uni-HOIが、統一フレームワークのもとで、テキスト主導のHOI生成、物体の動き主導の人間の運動生成（任意でテキストを併用）、および人間の運動主導の物体の運動予測といった複数のHOI関連タスクにおいて顕著な性能を達成することを示します。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

THE DECODER

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

Qiita

Uni-HOI：テキストと人・物体インタラクションの同時分布を学習するための統一フレームワーク

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価