AI Navigate

HanMoVLM: 専門的美術絵画評価のための大規模ビジョン言語モデル

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HanMoVLMは、大規模ビジョン言語モデルを進化させ、中国の芸術分野で専門家レベルの評価を行えるようにし、従来VLMが美術的に盲目であったというギャップに対処します。
  • 本研究は HanMo-Bench を提案します。実物のオークション級の名作とAI生成作品を特徴とし、実世界の市場評価に基づくデータセットです。
  • 専門家によって検証された Chain-of-Thought (CoT) フレームワークが、コンテンツ識別、関心領域(RoI)局在、および中国絵画の分野特有の三段階評価を導く。
  • 報酬関数は HanMoVLM の推論を洗練させ、テスト時生成の高品質な検証者として機能させ、中国絵画出力の品質を向上させます。実験と人間の研究は、専門家との強い整合性を示すことを支持します。
大規模ビジョン言語モデル(VLM)は全般的な視覚能力を示す一方で、芸術面では盲目であり、人間の専門家のような特定の芸術分野における作品の専門評価を提供できません。そのギャップを埋めるため、VLMを中国美術分野での専門的な絵画評価が可能な専門家へと変換します。これはより抽象的で、評価には広範な美術訓練が必要です。 HanMo-Benchという新しいデータセットを導入します。実際のオークション級の名作とAI生成作品を特徴とし、実世界の市場評価額に基づいています。厳密な判断を実現するため、専門家によって検証された思考過程(CoT)を提案し構築します。このCoTは、コンテンツ識別と関心領域(RoI)局在から始まり、主題特有の評価と中国絵画における三段階評価の指針により、専門家レベルの推論をモデルに実行させます。さらに、HanMoVLMの推論過程を洗練させ精度を高める報酬関数を設計します。 HanMoVLMは、画像生成時のスケーリングにおける重要なバックボーンとして機能し得ることを示します。高品質な検証者として機能することで、生成モデルは複数の候補の中から最も美術的に優れた出力を選択できるようになります。実験結果と人間の研究は、提案された HanMoVLM がギャップを効果的に埋め、専門家と高い整合性を達成し、中国絵画生成の品質を大きく向上させることを裏付けています。