大規模視覚言語モデルが生成する属性ベースの記述に対する視覚的なテキストスタイルの影響の解明
arXiv cs.CV / 2026/5/1
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像内でのテキストの視覚的スタイル(フォント、色、大きさなど)が、大規模視覚言語モデル(LVLM)が生成する属性ベースの記述に影響するかを調査しています。
- 読みやすさを重視した機能的スタイルと、装飾性を重視した装飾的スタイルを比較し、参照された概念をモデルが正しく認識できる状況で、スタイルがLVLMの出力をどう変えるかを検証します。
- 実験の結果、概念の認識が正しい場合でも、テキストスタイルが意味推論へ「漏れ込み」し、モデルが述べる属性が変化し得ることが示されました。
- これらの知見は、LVLMベースのマルチメディアシステムにおいて、意図しない影響を抑えるためのスタイル対応型の評価と対策の必要性を後押しします。




