VisDoT: 人間のような解釈によるグラウンディングと思考の分解を通じた視覚推論の強化

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

VisDoT は、グラフィカル知覚理論に基づく4つの知覚タスクを定義し、位置や長さといった視覚的プリミティブをチャート理解のためにより適切にグラウンディングします。

本文: arXiv:2603.11631v1 アナウンス種別: new アブストラクト: 大規模なビジョン-ランゲージモデル（LVLM）は、チャートにおける視覚的プリミティブを安定して検出し、それらを意味表現と整合させることに苦労しており、複雑な視覚推論における性能を著しく制限している。この知覚グラウンディングの欠如は、チャートベースの推論にとって重大なボトルネックを構成する。我々は VisDoT を提案する。それは人間のような解釈に基づくグラウンディングを通じて視覚推論を強化するフレームワークである。グラフィカル知覚理論に基づく4つの知覚タスク（位置と長さを含む）を形式化する。この基盤の上に、思考分解（DoT）プロンプティングを導入する。これにより、問いを視覚知覚サブ質問と論理サブ質問に順次分離する。VisDoT を用いて InternVL をファインチューニングすると ChartQA で +11.2% の改善を達成し、より難易度の高い ChartQAPro ベンチマークでは GPT-4o を上回った。新たに導入された VisDoTQA ベンチマークでは、モデルが +33.2% の改善を達成する。さらに、多様なオープンドメイン VQA ベンチマークでの一貫したゼロショットの向上は、視覚質問応答における知覚-論理分離戦略の一般化可能性を確認する。VisDoT は人間のような知覚を活用して視覚グラウンディングを強化し、最先端のチャート理解と解釈可能な視覚推論を実現する。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

VisDoT: 人間のような解釈によるグラウンディングと思考の分解を通じた視覚推論の強化

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも