HuM-Eval：人間中心の動画評価のための粗いから細かい段階的フレームワーク

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

HuM-Evalは、人間の動きを生成する動画の品質を、人間の主観的な好みにより合う形で評価することを目的とした、人間中心の評価フレームワークを提案しています。
粗いから細かい（coarse-to-fine）方針として、まず視覚と言語モデルで全体の動画品質を大まかに評価し、その後2Dポーズで解剖学的な正しさを、3D人体動作で動きの安定性を検証します。
実験では平均の人間相関が58.2%と報告され、既存の最先端ベースラインを上回っています。
さらに、1,000の多様なプロンプトからなるベンチマーク「HuM-Bench」を提供し、既存のテキストから動画生成モデルを詳細に評価して、次世代の人間動作生成につなげています。

要旨: 近年、動画生成モデルは急速に発展しており、自然な人間の動作を生成することが重要な役割を担っています。しかし、生成された人間の動作動画の品質を正確に評価することは、依然として大きな課題です。既存の評価指標は主にシーン全体の統計に焦点を当てるものが多く、微細な人間の詳細を見落としがちで、その結果、人間の主観的な嗜好との整合に失敗します。そこでこのギャップを埋めるために、我々は粗視的から精密へという戦略を採用した、新しい人間中心の評価フレームワークであるHuM-Evalを提案します。具体的には、まず本フレームワークはVision Language Modelを用いて動画全体の品質を粗く評価します。次に、きめ細かな分析へと進みます。2Dポーズを用いて解剖学的な正しさを検証し、3D人間モーションを用いて動作の安定性を評価します。大規模な実験の結果、HuM-Evalは平均的な人間相関58.2%を達成し、最先端のベースラインを上回ることが示されます。さらに我々は、1,000件の多様なプロンプトからなる包括的なベンチマークHuM-Benchを導入し、既存のテキスト・トゥ・ビデオモデルに対して詳細な評価を行います。これにより、次世代の人間モーション生成への道を切り拓きます。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

Dev.to

HuM-Eval：人間中心の動画評価のための粗いから細かい段階的フレームワーク

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ