Transformerベースのモデルを用いたペア対話データからのリアクティブな人の動作生成

arXiv cs.CV / 2026/4/27

📰 ニュースModels & Research

共有:

要点

本論文は、相互に依存する相手の行動に基づいて一方の人物の動きを生成・予測する「対話的（インタラクティブ）な人の動作生成」の問題を扱い、単一エージェントの生成とは異なる点に焦点を当てています。
研究では、ボクシングの試合動画から抽出したアクション–リアクションのペア動作シーケンスからなる新しいデータセットを構築し、Transformer系モデルの有効性を検証します。
単純なTransformer、iTransformer、Crossformerの3つのTransformer派生モデルを比較し、その結果、単純なTransformerはポスチャ崩壊（姿勢崩れ）なく相互作用を意識したもっともらしい動作を生成できると報告されています。
iTransformerとCrossformerは時間とともに誤差が蓄積し、動作生成が不安定になる傾向が示されています。
人物を明示的に識別するためのperson ID埋め込みを提案し、構造の一貫性を保ち、構造崩壊の抑制と動作の整合性向上に寄与すると述べています。

Dev.to

Dev.to

MarkTechPost

Reddit r/MachineLearning

The Register