理解に届かないレスポンス：視覚ドキュメント理解における内部表現と応答のギャップを明らかにする

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模視覚言語モデル（LVLM）における視覚ドキュメント理解（VDU）を調査し、生成された応答によるベンチマーク評価が、モデルが本当に必要な情報を内部にエンコードしているかどうかを見えにくくする可能性があると主張する。
著者らは、LLMの各層に対して線形プロービングを行い、内部表現と最終的な生成応答との間に測定可能なギャップを見出した。これは、必要情報の不完全な利用、または情報利用のミスアラインメントを示唆している。
結果は、タスクに関連する情報は最終層よりも中間層の方がより線形にエンコードされていることが多いことを示しており、より早い段階の表現の方が直接的に利用可能である可能性がある。
本研究では、中間層を対象とする微調整アプローチを検証し、線形プロービングの精度と応答精度の両方の向上、ならびに内部と応答のギャップの低減を確認した。

Abstract

視覚ドキュメント理解（VDU）は、大規模視覚言語モデル（LVLM）にとって難しい課題であり、視覚的知覚、テキスト認識、構造化されたレイアウト上での推論を統合することが必要となります。近年のLVLMはVDUベンチマークで進展を示しているものの、その性能評価は一般に生成された応答に基づいて行われており、モデルが実際に必要な情報を内部でどの程度捉えているかを必ずしも反映しているとは限りません。本論文では、線形プロービングを用いて、LVLM内のLLMの異なる層において、VDUタスクを解くために必要な情報がどのように表現されているのかを調査します。研究の結果、（1）内部表現と生成応答の間には明確なギャップがあり、（2）タスクを解くために必要な情報は、最終層よりも中間層からより線形に符号化されていることが多い、ことが明らかになりました。これらの知見に動機づけられ、我々は中間層を対象とした微調整戦略を検討します。実験の結果、中間層を微調整することで、線形プロービングの精度と応答精度の両方が向上し、ギャップも縮小することが示されました。

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

日経XTECH

理解に届かないレスポンス：視覚ドキュメント理解における内部表現と応答のギャップを明らかにする

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

SHIFT丹下社長「新入社員にも『AIで君の仕事はなくなる』と伝え、考えさせる」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ