要旨: 視覚-言語モデル(VLMs)はしばしば値を誤読し、詳細を幻覚的に生成し、グラフ内の重なり合う要素を取り違えます。現在のアプローチはピクセルの解釈のみに依存しており、Pixel-Only Bottleneck(ピクセルのみのボトルネック)を生み出しています。すなわち、エージェントはインタラクティブなグラフを静的な画像として扱うため、正確な値をエンコードする構造化された仕様へのアクセスを失います。私たちは、Introspective and Interactive Visual Grounding(IVG)を導入します。これは、(1)仕様に基づく内省(spec-grounded introspection)により、基となる仕様を問い合わせて決定論的な根拠を得ることと、(2)視点に基づくインタラクション(view-grounded interaction)により、視覚的な曖昧さを解消するためにビューを操作することを組み合わせた枠組みです。VLMのバイアスなしで評価を可能にするため、iPlotBench を提示します。これは、6,706件の二値質問と真値の仕様(ground-truth specifications)を備えた、500件のインタラクティブな Plotly 図形のベンチマークです。実験の結果、内省はデータ再構成の忠実度を改善し、さらに内省とインタラクションを組み合わせることで、最も高いQA精度(0.81)を達成できることが示されました。重なり合う幾何形状に対しては +6.7 % の向上があります。加えて、IVG を実運用のエージェントで実証します。このエージェントはデータを自律的に探索し、人間のユーザとリアルタイムで協働します。
ピクセルの先へ:可視化エージェントのための内省的かつ対話的なグラウンディング
arXiv cs.CL / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 視覚言語モデル(VLM)は、チャートの値を誤読したり詳細を幻覚したりすることが多く、ピクセルだけに依存するためチャートの背後にある構造化された仕様を活用できません。
- 本論文では、Introspective and Interactive Visual Grounding(IVG)として、仕様に基づく内省(仕様から決定的な根拠を照会)と、視点に基づくインタラクション(視覚的曖昧さを解消するためにビューを操作)を組み合わせる枠組みを提案します。
- VLM自身のバイアスを抑えることを目的に、iPlotBenchとして、500個のインタラクティブなPlotly図と6,706問の二値質問、そして正解の仕様を含むベンチマークを新たに提示します。
- 実験では、内省がデータ再構成の精度を向上させ、さらにインタラクションと組み合わせることで最良のQA精度(0.81)を達成し、とくに重なり合う幾何形状で改善が大きいことが示されます。
- 著者らは、IVGを実運用の可視化エージェントに適用し、データを自律的に探索しながら人間ユーザーとリアルタイムに協働できることも実証しています。




