大規模視覚言語モデルが生成する属性ベースの記述に対する視覚的なテキストスタイルの影響の解明

arXiv cs.CV / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像内でのテキストの視覚的スタイル(フォント、色、大きさなど)が、大規模視覚言語モデル(LVLM)が生成する属性ベースの記述に影響するかを調査しています。
  • 読みやすさを重視した機能的スタイルと、装飾性を重視した装飾的スタイルを比較し、参照された概念をモデルが正しく認識できる状況で、スタイルがLVLMの出力をどう変えるかを検証します。
  • 実験の結果、概念の認識が正しい場合でも、テキストスタイルが意味推論へ「漏れ込み」し、モデルが述べる属性が変化し得ることが示されました。
  • これらの知見は、LVLMベースのマルチメディアシステムにおいて、意図しない影響を抑えるためのスタイル対応型の評価と対策の必要性を後押しします。

Abstract

テキストの視覚的スタイルを考えると、フォント、色、サイズにおいて多様性が観察されます。しかし、単語が読まれるとき、その意味は、その単語がどのスタイルで書かれ、どのようにレンダリングされたかとは独立しています。本論文では、画像中で単語が可視化されるスタイルが、その単語が指し示す概念に対して、大規模視覚言語モデル(LVLM)が提供する記述に、影響を与えるかどうか、また与えるとすればどのように与えるのかを調査します。具体的には、機能的なテキストスタイル(可読性志向、例:黒のサンセリフ)と、装飾的なスタイル(表示志向、例:色付きの筆記体/スクリプト)が、概念の属性という観点から見たLVLMの概念記述にどのように影響するかを調べます。実験では、LVLMが視覚テキスト、すなわち画像としてレンダリングされた単語または複数の単語により指し示される概念を正しく識別できる状況、そして視覚テキストのスタイルが、LVLMが生成する属性ベースの記述に影響してはならない状況を扱います。実験結果は、概念が正しく識別される場合であっても、テキストスタイルがその概念に関するモデルの属性ベースの記述に影響することを明らかにします。本研究の発見は、テキストスタイルから意味推論への非自明な情報漏えいが存在することを示し、LVLMベースのマルチメディアシステムに対して、スタイルを考慮した評価と低減策(ミティゲーション)を動機づけます。