要旨: 画像に関する質問へ答えるとき、人間は自然に指さし、ラベル付けし、描画して推論を説明します。対照的に、Gemini-3-Pro や GPT-5 のような最新の視覚言語モデル(VLM)はテキストのみで応答するため、ユーザーが内容を検証するのが難しい場合があります。私たちは、SketchVLM を提案します。これは学習不要(training-free)で、モデルに依存しない(model-agnostic)枠組みであり、VLM が入力画像に対して、破壊的でない(non-destructive)かつ編集可能な SVG オーバーレイを生成し、答えを視覚的に説明できるようにします。視覚推論(迷路ナビゲーション、ボール落下軌道の予測、物体数のカウント)と描画(部品ラベリング、点つなぎ、物体の周りに形状を描くこと)にまたがる 7 つのベンチマークにおいて、SketchVLM は、画像編集および微調整スケッチのベースラインに比べて、視覚推論タスクの精度を最大 +28.5 パーセントポイント、注釈品質を最大 1.48 倍向上させます。さらに、モデルが述べた回答により忠実な注釈も生成します。単一ターンの生成だけでも高い精度と注釈品質が得られ、多ターンの生成は人間とAIの協働に向けたさらなる可能性を開きます。インタラクティブなデモとコードは https://sketchvlm.github.io/ です。
SketchVLM:視覚言語モデルが思考を説明しユーザーを導くために画像へ注釈を描けるようにする
arXiv cs.CV / 2026/4/28
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- SketchVLMは、学習不要かつモデル非依存の枠組みで、視覚言語モデルに対して入力画像へ編集可能なSVGオーバーレイで注釈を出させ、テキストのみの説明に代わる仕組みを提供します。
- この手法は非破壊的で検証可能な視覚的推論アーティファクト(ラベル付け、点の連結、物体周りの図形スケッチなど)を元画像上に重ねて生成することを目指しています。
- 7つのベンチマークで、比較ベースラインに対して視覚推論の精度が最大+28.5ポイント向上し、注釈品質は最大1.48倍改善したと報告されています。
- 生成される注釈は、モデルが述べた答えとの整合性がより高い(faithful)とされます。
- シングルターンでも精度と注釈品質が強力であり、マルチターンでは人とAIの協調によるさらなる可能性が開けると結論づけています。




