HuM-Eval:人間中心の動画評価のための粗いから細かい段階的フレームワーク

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HuM-Evalは、人間の動きを生成する動画の品質を、人間の主観的な好みにより合う形で評価することを目的とした、人間中心の評価フレームワークを提案しています。
  • 粗いから細かい(coarse-to-fine)方針として、まず視覚と言語モデルで全体の動画品質を大まかに評価し、その後2Dポーズで解剖学的な正しさを、3D人体動作で動きの安定性を検証します。
  • 実験では平均の人間相関が58.2%と報告され、既存の最先端ベースラインを上回っています。
  • さらに、1,000の多様なプロンプトからなるベンチマーク「HuM-Bench」を提供し、既存のテキストから動画生成モデルを詳細に評価して、次世代の人間動作生成につなげています。

要旨: 近年、動画生成モデルは急速に発展しており、自然な人間の動作を生成することが重要な役割を担っています。しかし、生成された人間の動作動画の品質を正確に評価することは、依然として大きな課題です。既存の評価指標は主にシーン全体の統計に焦点を当てるものが多く、微細な人間の詳細を見落としがちで、その結果、人間の主観的な嗜好との整合に失敗します。そこでこのギャップを埋めるために、我々は粗視的から精密へという戦略を採用した、新しい人間中心の評価フレームワークであるHuM-Evalを提案します。具体的には、まず本フレームワークはVision Language Modelを用いて動画全体の品質を粗く評価します。次に、きめ細かな分析へと進みます。2Dポーズを用いて解剖学的な正しさを検証し、3D人間モーションを用いて動作の安定性を評価します。大規模な実験の結果、HuM-Evalは平均的な人間相関58.2%を達成し、最先端のベースラインを上回ることが示されます。さらに我々は、1,000件の多様なプロンプトからなる包括的なベンチマークHuM-Benchを導入し、既存のテキスト・トゥ・ビデオモデルに対して詳細な評価を行います。これにより、次世代の人間モーション生成への道を切り拓きます。