妥当性から検証可能性へ：視覚言語モデルのためのリスク制御型生成OCR

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

視覚言語モデルからの生成型OCRは、視覚的にはもっともらしく見える出力を生み出すことがある一方で、検証可能な根拠に基づくものにはならず、展開時には極端な誤りや置換ミスを招く。
中核的な齟齬は、自己回帰デコーディングが意味論的妥当性を優先する一方で、OCRは視覚的に根拠づけられ、幾何学的に検証可能な出力を要するという点にある。
著者らは、複数の構造化ビューと軽量なスクリーニングを用いて、クロスビューの合意と安定性基準が満たされた場合にのみ文字起こしを受理する、モデル非依存の幾何リスクコントローラを提案する。
実験は、標準的なOCRベンチマークにおいて、凍結されたVLMバックボーンに対して、極端な誤りリスクと壊滅的な過生成を一貫して低減し、カバレッジには予測可能なトレードオフがあることを示している。

要約: 現代のビジョン-言語モデル（VLM）は生成的OCRエンジンとして機能することができるが、オープンエンドなデコードはまれではあるが重大な失敗を露呈させる可能性がある。生成的OCRにおけるコアとなるデプロイメントのずれを特定する。自己回帰デコードは意味的妥当性を優先する一方で、OCRは視覚的に根拠があり幾何学的に検証可能な出力を必要とする。この不一致は深刻なエラーを生み出し、特に過剰生成と裏付けのない置換を生み出し、ベンチマークの精度が高い状態でもデプロイメントリスクを生み出す。したがって凍結VLM OCRを選択的受け入れ/棄却問題として定式化し、モデル非依存の幾何学的リスクコントローラを提案する。コントローラは同一入力の複数の構造化ビューを検査し、軽量な構造スクリーニングを適用し、クロスビューの合意と安定性が事前に定義された基準を満たす場合にのみ文字起こしを受け入れ、少数の動作点ファミリを生み出す。凍結VLMバックボーンと標準OCRベンチマークを用いた実験は、極端なエラーリスクと壊滅的な過剰生成を、予測可能なカバレッジコストで一貫して低減することを示している。凍結VLMを用いた生成的OCRの信頼性の高い展開は、無制約な生成よりも明示的なシステムレベルのリスクコントロールの恩恵を受ける。