軽量な予測ワールドモデルによる感情条件付き・短期ホライズン人体ポーズ予測

arXiv cs.CV / 2026/4/28

📰 ニュースModels & Research

要点

  • 本研究は、顔の表情から得た感情埋め込みが、幾何学的な運動手がかりだけでは捉えにくい感情に基づく動きのダイナミクスにおいて、短い時間幅の人体ポーズ予測を改善できるかを検証する。
  • 15ステップのローリング予測を行う軽量な自己回帰型「予測ワールドモデル」を提案し、ポーズのキーポイントと感情埋め込みを学習可能なゲーティング機構で統合し、2層LSTMのリカレントモデルで自己回帰的に展開する。
  • 小規模なポーズ–感情動画データセット2種(表情変化が小さい制御された動作系列と、表情変化が大きい自然な感情駆動動作系列)で実験した結果、単純なマルチモーダル融合は一貫して精度向上に寄与しない一方、正規化したゲーティング融合は感情駆動系列で有意に性能を高める。
  • 反事実的(カウンターファクト)摂動の実験では、マルチモーダル入力の変更に応じて予測軌道が測定可能に感度を示し、感情埋め込みが冗長な特徴ではなく補助的な条件信号として働くことを示唆する。

要旨: 短期の人間の姿勢予測は、インタラクティブなシステム、介助ロボット、そして感情を考慮したヒューマン-コンピュータインタラクション[1-3]において重要な役割を果たす。現在の軌道予測モデルは主として幾何学的な運動の手がかりに依存している一方で、人間の運動ダイナミクスに影響する基礎となる感情の信号を見落としがちである[4-5]。本論文では、顔の表情から得られる感情埋め込みが、短期の姿勢予測に対する補助的な条件付き信号を提供し得るかどうかを検討する。再帰的な予測設定におけるマルチモーダルな条件付けをさらに評価するために、我々は15ステップのローリング姿勢予測を実行する軽量な自己回帰型の予測ワールドモデルを提案する。この枠組みは、姿勢キーポイントと感情埋め込みを、学習可能なゲーティング機構を通じて組み合わせ、2層のLSTMアーキテクチャに基づくリカレントなシーケンスモデルを用いて自己回帰的に展開して予測を行う。実験は、2つの小規模な姿勢-感情ビデオデータセットで実施した。すなわち、顔の表情変化が最小で統制された運動シーケンスと、顔の表情変化が相当程度ある自然な感情駆動の運動シーケンスである。結果は、単純なマルチモーダル融合は予測精度を一貫して向上させない一方で、正規化されたゲーティング融合が感情駆動の運動シーケンスにおける性能を有意に改善することを示した。さらに、反実仮想的摂動の実験では、予測された軌道がマルチモーダル入力の変化に対して測定可能な感度を示すことが明らかになり、顔の表情埋め込みが冗長な特徴というよりも補助的な条件付き信号として機能していることを示唆する。まとめると、本結果は、軽量な予測ワールドモデルの枠組みに基づく感情条件付き短期姿勢予測に、顔の表情から得られる感情埋め込みを取り入れることが実行可能なアプローチであることを示している。