AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

最先端のAIモデルは本当に絵画を読めるのか？[R]

Reddit r/MachineLearning / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

著者は、4つの最先端マルチモーダルモデルを15枚の絵画（総落札額：約$1.46B）で実験し、画像のみで鑑定できるか、または画像に加えて基本的なメタデータを与えるとどう変わるかを検証した。
結果は「認識とコミットのギャップ」を示している。モデルはピクセルから作品や作者を特定できる場合があるものの、その認識が画像だけにもとづく評価額の確定（コミット）へ一貫してつながるとは限らない。
メタデータの追加は、一部のモデルで評価パフォーマンスをより大きく改善した。Gemini 3.1 Proは、画像のみ・画像＋メタデータの両設定で最も強かった。またGPT-5.4は、メタデータを加えると急激に改善した。
本投稿は、マルチモーダルシステムでは「見えること」と「見えているものを頼りにすること」が意味のある形で異なり得る、と主張している。そのため、視覚的な根拠づけ（ビジュアル・グラウンディング）とテキスト／メタデータ依存を切り分けるより良いテストが必要だという問題提起につながる。
著者は、この枠組みが有用かどうか、視覚依存とテキスト依存をよりクリーンに評価する設計方法、そして美術品の鑑定がマルチモーダルなグラウンディングの良い検証対象になり得るかについて議論を呼びかけている。

前線のマルチモーダルモデルが、視覚だけからアートを鑑定できるかどうかについて、小さな実験を書きました。

合計の競売落札額が約14.6億ドルに相当する、15枚の絵画を対象に、前線の4つのモデルを次の2つの設定でテストしました：

画像のみ
画像 + 基本メタデータ

主に分かったのは、私が認識とコミットのギャップと呼ぶものです。

いくつかのケースでは、モデルが画素だけで作品やアーティストを特定できるように見えましたが、それが画像だけに基づく鑑定額へのコミット（判断の確定）に常に結びつくとは限りませんでした。メタデータは、モデルによってかなり差がありましたが、いくつかのモデルには大いに役立ちました。

Gemini 3.1 Proは、両方の設定で最も強い結果でした。GPT-5.4は、メタデータを追加すると改善が急に大きくなりました。

これは興味深いと思いました。マルチモーダルモデルにおいて、「何かを“見る”こと」と、実際に“見えているもの”に依拠することは同じではない、ということを示唆しているからです。

みなさんがどう考えるか気になります：

これが有用な切り口（枠組み）だと思うか
視覚への依拠とテキストへの依拠を切り分ける、よりきれいなテストをどう設計すべきか
アート鑑定は、マルチモーダル・グラウンディングのための妥当な手がかり（プローブ）になり得るか

ブログ記事：https://arcaman07.github.io/blog/can-llms-see-art.html

submitted by /u/ShoddyIndependent883
[リンク] [コメント]

関連記事

Claude Opus 4.7の紹介

Claude Opus 4.7の紹介

Anthropic News

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

監査するのは誰か？エージェンシックな信頼性のためのLLM-as-a-Judgeを構築する

監査するのは誰か？エージェンシックな信頼性のためのLLM-as-a-Judgeを構築する

Dev.to

エンタープライズAIコスト最適化：企業はどのようにAIインフラ支出を削減しているのか（途中省略）

エンタープライズAIコスト最適化：企業はどのようにAIインフラ支出を削減しているのか（途中省略）

Dev.to

反復的なAIボイラープレートを置き換えるためのコンフィグ・ファーストのコードジェネレーター — フィードバックと協力者募集中

反復的なAIボイラープレートを置き換えるためのコンフィグ・ファーストのコードジェネレーター — フィードバックと協力者募集中

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告