SoulX-LiveAct: Neighbor ForcingとConvKVメモリを用いた時間スケールのリアルタイム人間アニメーションへ

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自己回帰拡散を用いた時刻スケールのリアルタイムアニメーションにおける2つの主要な課題を特定します。1つは forcing 戦略における拡散状態の不整合、もう1つは履歴表現が無限に拡張し安定した学習とキャッシュ状態の再利用を妨げる点です。
これらの課題に対処するため、同じノイズ条件下で時系列的に隣接するフレームを潜在的な隣人として伝播させる拡散ステップ一貫性を持つ AR 形式である Neighbor Forcing を提案します。この設計は、分布に整合した安定した学習信号を提供しつつ、ARチェーン全体のドリフトを保持します。
これを土台として、因果アテンションのキーとバリューを固定長表現へ圧縮する構造化された ConvKV メモリ機構を導入します。これにより、一定メモリ使用量での推論を実現し、短期モーションフレームメモリに依存せず、真に無限の動画生成を可能にします。
実験により、既存の AR 拡散法と比較して、学習の収束、時間スケール生成品質、および推論効率が大幅に改善されることを示しています。
本手法は、2台の NVIDIA H100/H200 GPU だけで 20 FPS のリアルタイムストリーミング推論を実現し、リップシンク精度、アニメーション品質、感情表現力で最先端の性能を達成し、推論コストも最低水準であることを示しています。

自己回帰（AR）拡散モデルは、拡散モデリングと因果推論を組み合わせることで、動画合成のような連続生成タスクに有望なフレームワークを提供します。ストリーミング生成をサポートしている一方で、既存のAR拡散法はスケーリングを効率的に行うのに苦戦しています。本論文では、時刻スケールのリアルタイム人間アニメーションにおける2つの主要な課題を特定します。第一に、多くの forcing 戦略はサンプルレベルの表現を拡散状態と不整合のまま伝搬させ、学習信号の不整合と収束の不安定さを引き起こします。第二に、履歴表現が無限に増大し構造を欠くため、キャッシュされた状態の効果的な再利用を妨げ、推論効率を著しく制限します。これらの課題に対処するため、同じノイズ条件下で時系列的に隣接するフレームを潜在的な隣人として伝搬させる拡散ステップ一貫性を持つ AR 形式である Neighbor Forcing を提案します。この設計は、ARチェーン全体でのドリフトを保持しつつ、分布に整合した安定した学習信号を提供します。これを土台として、因果アテンションのキーとバリューを固定長表現へ圧縮する構造化された ConvKV メモリ機構を導入します。これにより、一定メモリ使用量の推論を実現し、短期モーションフレームメモリに依存せず、真に無限の動画生成を可能にします。広範な実験により、既存のAR拡散法と比較して、私たちの手法が学習の収束、時間スケールの生成品質、および推論効率を大幅に改善することが示されています。数値的には、LiveAct は時間スケールのリアルタイム人間アニメーションを実現し、わずか2台の NVIDIA H100 または H200 GPU で 20 FPS のリアルタイムストリーミング推論をサポートします。定量的な結果は、リップシンクの精度、アニメーション品質、感情表現力において最先端の性能を発揮し、推論コストは最も低いことを示しています。