要旨: 顔の挙動の合成は、依然として重要でありながら十分には探究されていない課題である。テキストから顔を生成するモデルは進歩を遂げている一方で、粗い感情カテゴリに依存することが多く、人間の非言語コミュニケーションの全スペクトルを捉えるのに必要なニュアンスに欠けている。Action Units(AUs)は、より精密で解剖学的に根拠のある代替手段を提供する。しかし、現行の AU ベースの手法は通常、AU をワンホットベクトルとしてエンコードし、複合表情を個々の AU の単純な線形結合としてモデリングしている。この線形性は、同じ顔の筋肉を反対の作用で活性化する対立する AU を扱う場合に問題となる。このようなケースは解剖学的に不自然なアーティファクトや不自然な運動の重ね合わせを招く。これに対処するため、AU の自然言語による説明を通じて顔の挙動を表現する新しい方法を提案する。このアプローチは AU フレームワークの表現力を保持しつつ、複雑で対立する AU の明示的なモデリングを可能にする。また、高忠実度の顔の合成のための現代のテキストから画像へのモデルの潜在能力を解き放つ。この方向性を支援するべく、複雑な顔の挙動に対する最初の大規模なテキストと画像のペア付きデータセットであるBP4D-AUTextを紹介する。これは BP4D および BP4D+ データセットに対して、ルールベースの Dynamic AU Text Processor を適用することで合成される。さらに、テキストから現実的で多様な顔の挙動を合成するために、顔の構造的事前情報を活用する生成モデル VQ-AUFace を提案する。広範な定量的実験とユーザースタディは、私たちのアプローチが既存の手法を著しく上回ることを示している。解剖学的に妥当で、行動的に豊かで、知覚的にも説得力のある表情を生成する点で卓越しており、特に対立する AU を含む困難な条件下で際立つ。
AUコード、言語、合成: 顔の表情行動合成のための解剖学をテキストへ翻訳する
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の AU ベースのテキストから顔へ変換する手法が、AU をワンホットベクトルとしてエンコードすることに起因する限界を特定している。これらは矛盾する AU を扱うのに苦労し、解剖学的に不自然なアーティファクトを生み出すことがある。
- 表現の豊かさを維持し、複雑で矛盾する表情を明示的にモデリングできるよう、顔のアクションユニットを自然言語で記述することを提案する。
- 著者らは BP4D-AUText を紹介する。これは BP4D および BP4D+ データセットに Dynamic AU Text Processor を適用して作成された大規模なテキストと画像のペアデータセットである。
- さらに、顔の構造的事前情報を活用してテキストから現実的で多様な顔の挙動を合成する生成モデル VQ-AUFace を提示する。矛盾する AU がある場合を含め、妥当性と知覚的リアリズムの点で優れた性能を達成する。
