AUコード、言語、合成: 顔の表情行動合成のための解剖学をテキストへ翻訳する

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在の AU ベースのテキストから顔へ変換する手法が、AU をワンホットベクトルとしてエンコードすることに起因する限界を特定している。これらは矛盾する AU を扱うのに苦労し、解剖学的に不自然なアーティファクトを生み出すことがある。
表現の豊かさを維持し、複雑で矛盾する表情を明示的にモデリングできるよう、顔のアクションユニットを自然言語で記述することを提案する。
著者らは BP4D-AUText を紹介する。これは BP4D および BP4D+ データセットに Dynamic AU Text Processor を適用して作成された大規模なテキストと画像のペアデータセットである。
さらに、顔の構造的事前情報を活用してテキストから現実的で多様な顔の挙動を合成する生成モデル VQ-AUFace を提示する。矛盾する AU がある場合を含め、妥当性と知覚的リアリズムの点で優れた性能を達成する。

要旨: 顔の挙動の合成は、依然として重要でありながら十分には探究されていない課題である。テキストから顔を生成するモデルは進歩を遂げている一方で、粗い感情カテゴリに依存することが多く、人間の非言語コミュニケーションの全スペクトルを捉えるのに必要なニュアンスに欠けている。Action Units（AUs）は、より精密で解剖学的に根拠のある代替手段を提供する。しかし、現行の AU ベースの手法は通常、AU をワンホットベクトルとしてエンコードし、複合表情を個々の AU の単純な線形結合としてモデリングしている。この線形性は、同じ顔の筋肉を反対の作用で活性化する対立する AU を扱う場合に問題となる。このようなケースは解剖学的に不自然なアーティファクトや不自然な運動の重ね合わせを招く。これに対処するため、AU の自然言語による説明を通じて顔の挙動を表現する新しい方法を提案する。このアプローチは AU フレームワークの表現力を保持しつつ、複雑で対立する AU の明示的なモデリングを可能にする。また、高忠実度の顔の合成のための現代のテキストから画像へのモデルの潜在能力を解き放つ。この方向性を支援するべく、複雑な顔の挙動に対する最初の大規模なテキストと画像のペア付きデータセットであるBP4D-AUTextを紹介する。これは BP4D および BP4D+ データセットに対して、ルールベースの Dynamic AU Text Processor を適用することで合成される。さらに、テキストから現実的で多様な顔の挙動を合成するために、顔の構造的事前情報を活用する生成モデル VQ-AUFace を提案する。広範な定量的実験とユーザースタディは、私たちのアプローチが既存の手法を著しく上回ることを示している。解剖学的に妥当で、行動的に豊かで、知覚的にも説得力のある表情を生成する点で卓越しており、特に対立する AU を含む困難な条件下で際立つ。

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

note

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

Dev.to

GANを用いたデータ拡張

Dev.to

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

Dev.to

AUコード、言語、合成: 顔の表情行動合成のための解剖学をテキストへ翻訳する

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIが普及した今こそ、個人の実体験をnoteで売るべき理由

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

MCPセキュリティ2026の現状: 15,923件のAIツールをスキャンしました。私たちが見つけたことは以下のとおりです。

GANを用いたデータ拡張

本番環境で実際に機能する大規模言語モデルを活用したカスタマーサービスの安全ガードレールを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ