AI Navigate

AIは美術史家のように見るのか? 視覚と言語モデルが芸術的スタイルを認識する仕組みの解釈

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚と言語モデルが芸術的スタイルを予測する方法と、それらの推論が美術史家の基準と一致するかどうかを調査する。
  • 潜在空間分解アプローチを用い、定量的評価、因果分析、および美術史家による評価を組み合わせて、推進概念を特定する。
  • 抽出された概念の73%が美術史家によって一貫性があり、意味論的に有意義な視覚的特徴を示すと判断され、特定の芸術作品のスタイルを予測するために使用された概念の90%が関連性があると判断された。
  • 関連性の薄い概念がスタイル予測に寄与したケースでは、美術史家はその成功の可能性のある理由として、モデルが暗/明の対比といったより形式的な特徴を用いている可能性がある、等を挙げ、AIと人間の美術判断の解釈可能性のギャップを浮き彫りにしている。

Abstract

VLMsは、視覚質問応答や物体検出など、さまざまなコンピュータビジョンのタスクにおいて、ますます高い能力を示しています。これには、芸術の分析から芸術作品の生成に至る領域での能力強化も含まれます。コンピュータ科学者と美術史家の学際的な協力のもと、VLMが芸術的スタイルを予測する能力の背後にあるメカニズムを特徴づけ、芸術史家が芸術的スタイルを推論する際に用いる基準とどれくらい一致するかを評価します。我々は、潜在空間分解アプローチを用いて、芸術スタイル予測を駆動する概念を特定し、定量的評価、因果分析、そして美術史家の評価を実施します。我々の発見は、抽出された概念の73%が美術史家によって「一貫性があり、意味論的に有意義な視覚的特徴を示す」と判断され、特定の美術作品のスタイルを予測するために使用された概念の90%が「関連性がある」と判断された、ということです。スタイル予測に役立つが無関係と見なされる概念が用いられたケースでは、美術史家はその成功の可能性のある理由を特定しました。例えば、モデルが「暗/明の対比」といったより形式的な観点で概念を理解している可能性がある、ということです。