理解に届かないレスポンス:視覚ドキュメント理解における内部表現と応答のギャップを明らかにする
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模視覚言語モデル(LVLM)における視覚ドキュメント理解(VDU)を調査し、生成された応答によるベンチマーク評価が、モデルが本当に必要な情報を内部にエンコードしているかどうかを見えにくくする可能性があると主張する。
- 著者らは、LLMの各層に対して線形プロービングを行い、内部表現と最終的な生成応答との間に測定可能なギャップを見出した。これは、必要情報の不完全な利用、または情報利用のミスアラインメントを示唆している。
- 結果は、タスクに関連する情報は最終層よりも中間層の方がより線形にエンコードされていることが多いことを示しており、より早い段階の表現の方が直接的に利用可能である可能性がある。
- 本研究では、中間層を対象とする微調整アプローチを検証し、線形プロービングの精度と応答精度の両方の向上、ならびに内部と応答のギャップの低減を確認した。




