Q-Mask：OCR志向のビジョン・ランゲージ・モデルにおけるテキストアンカリングのためのクエリ駆動因果マスク

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「テキストアンカリング」を改善することを目的としたOCR志向のビジョン・ランゲージ・モデルのフレームワークであるQ-Maskを提案し、クエリされたテキストを画像内の正しい空間領域に確実に結び付けることを目指す。
新たに提案するベンチマークTextAnchor-Bench（TABench）を用いて微細なグラウンディング品質を評価した結果、汎用型およびOCR特化型のVLMはいずれも、正確で安定したテキストアンカーを生成できないことが一般的であると報告している。
Q-Maskは、因果クエリ駆動マスクデコーダ（CQMD）を基盤としており、最終的なOCR認識の前に、推論の連鎖（chain-of-thought）に着想を得た因果的な視覚デコーディング手順によって、クエリ条件付きの視覚マスクを生成する。
この手法を訓練するため、著者らはTextAnchor-26Mという大規模な画像-テキストデータセットを構築し、特定のテキスト要素に対する微細なマスクを用意することで、安定したテキスト領域対応を強化し、強力な空間的事前情報（空間プライア）を提供する。
実験結果から、Q-Maskは多様な実世界のシーンにおいて、テキストアンカリング性能と視覚理解の両方を大幅に向上させることが示されている。

要旨: 光学文字認識（OCR）は、現代の視覚言語モデル（VLM）にとって基盤となる機能としてますます重要視されている。これにより、画像内の文字を読み取るだけでなく、現実世界の視覚質問応答（VQA）における下流の推論を支援することが可能になる。しかし実用上は、信頼できるテキストアンカー、すなわち、問い合わせられたテキストをそれに対応する空間領域へ正確に基底付け（グラウンディング）することがさらに必要である。この能力を体系的に評価するために、細粒度のテキスト領域グラウンディングのベンチマークであるTextAnchor-Bench（TABench）を導入する。TABenchは、汎用型およびOCR特化型の双方のVLMが、依然として正確で安定したテキストアンカーを確立するのが難しいことを明らかにする。この制限に対処するため、原因（因果）クエリ駆動マスクデコーダ（CQMD）に基づく精密OCRフレームワークであるQ-Maskを提案する。連鎖的思考（chain-of-thought）推論に着想を得たQ-Maskは、最終的なOCR出力を生成する前に、クエリに条件付けされた視覚マスクを逐次生成する因果的な視覚デコーディングを行う。この視覚CoTの枠組みにより、「テキストがどこにあるか」と「テキストが何であるか」を分離し、認識の前に基底付けられた根拠の獲得を強制する。さらに推論時に、明示的なテキストアンカーの構築を可能にする。CQMDの学習のために、TextAnchor-26Mという、大規模な画像-テキスト対のデータセットを構築する。そこでは、特定のテキスト要素に対応する細粒度マスクを注釈として付与し、安定したテキスト領域対応を促すとともに、VLMの学習に強い空間事前知識を注入する。広範な実験の結果、Q-Maskは多様な視覚シーンにおいて、テキストアンカーリングと理解を大幅に改善することが示された。