理解に届かないレスポンス:視覚ドキュメント理解における内部表現と応答のギャップを明らかにする

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模視覚言語モデル(LVLM)における視覚ドキュメント理解(VDU)を調査し、生成された応答によるベンチマーク評価が、モデルが本当に必要な情報を内部にエンコードしているかどうかを見えにくくする可能性があると主張する。
  • 著者らは、LLMの各層に対して線形プロービングを行い、内部表現と最終的な生成応答との間に測定可能なギャップを見出した。これは、必要情報の不完全な利用、または情報利用のミスアラインメントを示唆している。
  • 結果は、タスクに関連する情報は最終層よりも中間層の方がより線形にエンコードされていることが多いことを示しており、より早い段階の表現の方が直接的に利用可能である可能性がある。
  • 本研究では、中間層を対象とする微調整アプローチを検証し、線形プロービングの精度と応答精度の両方の向上、ならびに内部と応答のギャップの低減を確認した。

Abstract

視覚ドキュメント理解(VDU)は、大規模視覚言語モデル(LVLM)にとって難しい課題であり、視覚的知覚、テキスト認識、構造化されたレイアウト上での推論を統合することが必要となります。近年のLVLMはVDUベンチマークで進展を示しているものの、その性能評価は一般に生成された応答に基づいて行われており、モデルが実際に必要な情報を内部でどの程度捉えているかを必ずしも反映しているとは限りません。本論文では、線形プロービングを用いて、LVLM内のLLMの異なる層において、VDUタスクを解くために必要な情報がどのように表現されているのかを調査します。研究の結果、(1)内部表現と生成応答の間には明確なギャップがあり、(2)タスクを解くために必要な情報は、最終層よりも中間層からより線形に符号化されていることが多い、ことが明らかになりました。これらの知見に動機づけられ、我々は中間層を対象とした微調整戦略を検討します。実験の結果、中間層を微調整することで、線形プロービングの精度と応答精度の両方が向上し、ギャップも縮小することが示されました。