要旨: 近年の視覚言語モデル(VLM)の進歩は、文化遺産の画像キャプション生成を改善してきました。しかし、視覚入力から構造化された文化メタデータ(例:作成者、出自、時代)を推論することは、十分に検討されていません。本研究では、このタスクのための多カテゴリかつ異文化横断のベンチマークを導入し、参照アノテーションとの意味的整合性を測定するLLM-as-Judge(LLMを裁定者として用いる)フレームワークによりVLMを評価します。文化的な推論を評価するために、文化領域ごとの完全一致、部分一致、属性レベルの精度を報告します。結果は、モデルが断片的な手がかりを捉える一方で、文化やメタデータの種類にまたがって性能が大きく変動し、一貫性のない、根拠が弱い予測につながることを示しています。これらの知見は、視覚的知覚を超えた構造化文化メタデータの推論において、現在のVLMには限界があることを明らかにします。
Appear2Meaning:画像から構造化された文化的メタデータを推論するための異文化間ベンチマーク
arXiv cs.CV / 2026/4/9
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、自由形式のキャプションを生成するのではなく、画像から(作成者、出自、時代などの)構造化された文化的メタデータを推論することを目的とした、異文化間ベンチマーク「Appear2Meaning」を提案する。
- LLM-as-Judge(LLMを判定者として用いる)アプローチにより、参照アノテーションとの意味的整合性をスコアリングして視覚言語モデルを評価する。
- 評価は、一致(exact-match)、部分一致(partial-match)、属性レベル精度により行い、モデルがしばしば断片的な視覚シグナルに依存していることを明らかにする。
- 結果として、文化的地域およびメタデータの種類ごとに大きなばらつきが見られ、予測は一貫性に欠け、根拠が弱いことが示される。


