合成データ拡張が制御可能なヒューマン中心のビデオ生成に果たす役割の探究

arXiv cs.CV / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、動きと外見を明示的にガイドできる制御可能なヒューマン中心のビデオ生成において、合成データがどのように役立つかを検証します。
大規模で多様かつプライバシーに配慮したヒト向け動画データセットが不足していることがボトルネックであり、特に希少なアイデンティティや複雑な行動で問題が大きいと指摘します。
著者らは、外見と動きの細かな制御を可能にし、学習中に合成データと実データがどう相互作用するかを分析するための統一的なテストベッドを提供する拡散ベースの枠組みを提案します。
広範な実験により、合成データと実データには補完的な役割があることを示し、モーションのリアリティ、時間的整合性、アイデンティティ保持を高めるための合成サンプル選択の効率的な方法も提案します。
本研究はこの領域における合成データの役割を包括的に扱った最初の試みとして位置づけられ、データ効率と汎化性の高い生成モデル構築に向けた実践的な示唆を提供します。

Abstract

制御可能な人間の動画生成は、明示的に導かれた動きと外見によって、人間の現実的な動画を生成することを目指しており、デジタルヒューマン、アニメーション、そして身体性を備えたAIのための基盤となります。しかし、大規模で多様かつプライバシーに安全な人間動画データセットの不足は、特に稀少なアイデンティティや複雑な動作において、大きなボトルネックになっています。合成データは、スケーラブルで制御可能な代替手段を提供しますが、Sim2Realギャップが継続しているため、その実際の生成モデリングへの寄与は十分に調査されていません。本研究では、制御可能な人間動画生成に対する合成データの影響を体系的に調査します。外見と動きの細粒度な制御を可能にする拡散ベースのフレームワークを提案するとともに、学習中に合成データが現実世界のデータとどのように相互作用するのかを分析するための、統一された検証環境（テストベッド）を提供します。広範な実験を通じて、合成データと実データが果たす補完的な役割を明らかにし、動作の現実味、時間的一貫性、そしてアイデンティティの保持を高めるために、合成サンプルを効率よく選択する可能性のある方法を示します。本研究は、人間中心の動画合成における合成データの役割を包括的に探った最初の試みであり、データ効率が高く汎用性のある生成モデルを構築するための実践的な洞察を提供します。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

合成データ拡張が制御可能なヒューマン中心のビデオ生成に果たす役割の探究

要点

Abstract

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer