MHPR:大規模ビジョン・ランゲージモデル向け 多次元の人間知覚・推論ベンチマーク

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、単一人物・複数人物・人間と物体の相互作用といったシナリオで、人間中心の知覚と推論を多次元的に評価するための新しいベンチマーク「MHPR」を提案しています。
  • MHPRは、C-RD・SFT-D・RL-D・T-Dからなる段階的なデータ設計に加え、属性の分解・書き換え・複数モデルによる投票を行う自動キャプション/VQA生成パイプライン「ACVG」を備え、大規模で高品質な注釈を可能にします。
  • 実験では最先端のLVLMを、見た目・服装・姿勢・部位といった細かな属性と、社会関係・行動意味・空間関係・意図/機能性のような高レベル意味の両方で評価します。
  • その結果、形式に整合させた教師あり微調整データが指示追従と学習安定性を高め、「悪ケース」分析から作られた難題志向の強化学習データが難しい例での知覚・推論性能をさらに押し上げることが示されています。
  • Qwen2.5-VL-7BにMHPRで学習させると大幅な改善が得られ、はるかに大きなモデルにほぼ肩を並べる水準に到達し、ACVGとMHPRが公開され再現可能な研究を後押しします。

概要: 多次元の人間理解は、映画分析やバーチャル・デジタルヒューマンなどの現実世界の応用に不可欠であるにもかかわらず、現在のLVLMベンチマークは主に単一タスクの設定に重点を置いており、人間中心の細かな評価が欠けています。本研究では、人間中心のシーンに対する共同知覚・推論を、個人・複数人・人と物体の相互作用という次元にまたがって扱う包括的なベンチマークMHPRを提案します。MHPRは、階層型のデータ設計—キャプション付き原データ(C-RD)、教師あり微調整データ(SFT-D)、強化学習データ(RL-D)、テストデータ(T-D)—に加え、高品質でスケーラブルなアノテーションを保証する自動キャプション/VQA生成パイプライン(ACVG)から成ります。このパイプラインは、カテゴリごとの属性分解、属性に特化した書き換え、多モデルによる投票を実行します。私たちは、最先端の視覚言語モデルを、外見・服装・姿勢・部位といった細粒度属性および、社会的関係・行為の意味論・空間関係・意図と機能といった高レベル意味論に対して評価します。結果は次のとおりです。1)フォーマットを整合させたSFTデータは、指示追従と安定性を大幅に向上させます;2)不良事例の分析から導出された、課題に焦点を当てたRLデータは、難しいケースにおける知覚と推論をさらに強化します;3)Qwen2.5-VL-7BをMHPRで学習すると、有意な改善が得られ、かなり大きなモデルとほぼ同等の性能に到達します。再現可能で拡張可能な、人間中心の知覚と推論に関する研究を促進するために、ACVGとMHPRを公開します。