前線のマルチモーダルモデルが、視覚だけからアートを鑑定できるかどうかについて、小さな実験を書きました。
合計の競売落札額が約14.6億ドルに相当する、15枚の絵画を対象に、前線の4つのモデルを次の2つの設定でテストしました:
- 画像のみ
- 画像 + 基本メタデータ
主に分かったのは、私が認識とコミットのギャップと呼ぶものです。
いくつかのケースでは、モデルが画素だけで作品やアーティストを特定できるように見えましたが、それが画像だけに基づく鑑定額へのコミット(判断の確定)に常に結びつくとは限りませんでした。メタデータは、モデルによってかなり差がありましたが、いくつかのモデルには大いに役立ちました。
Gemini 3.1 Proは、両方の設定で最も強い結果でした。GPT-5.4は、メタデータを追加すると改善が急に大きくなりました。
これは興味深いと思いました。マルチモーダルモデルにおいて、「何かを“見る”こと」と、実際に“見えているもの”に依拠することは同じではない、ということを示唆しているからです。
みなさんがどう考えるか気になります:
- これが有用な切り口(枠組み)だと思うか
- 視覚への依拠とテキストへの依拠を切り分ける、よりきれいなテストをどう設計すべきか
- アート鑑定は、マルチモーダル・グラウンディングのための妥当な手がかり(プローブ)になり得るか
ブログ記事:https://arcaman07.github.io/blog/can-llms-see-art.html
[リンク] [コメント]




