要旨: 最近の視覚-テキスト圧縮(VTC)手法は、DeepSeek-OCR をはじめとするものが、テキストを画像にレンダリングして長い文脈のモデリングタスクに対して高いトークン圧縮率を示します。しかし、既存の評価プロトコルは下流タスクの性能に過度に依存しています。こうした評価指標は、マルチモーダル大規模言語モデル(MLLM(Multimodal Large Language Models))の強い固有の言語的先行バイアスのため、テキストの保持を正確に測定できません。本研究では、MLLM群の能力を切り離して VTC 品質を忠実に評価する新しい評価フレームワークを導入します。この枠組みの下で、テストサンプルの意味的相関を低く保つことを目的とした ZeroSense Benchmark をさらに導入します。文脈依存性を排除することにより、評価結果は純粋に VTC 品質を反映することを保証し、下流モデルの意味的推論能力の影響を受けません。複数データセットにわたる広範な実験は、VTC 品質と下流タスクの精度が大きく乖離することを示しており、我々の分離評価フレームワークの必要性を強調します。
ZeroSense: 長い文脈圧縮における視覚の重要性
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 長い文脈圧縮(VTC)品質とマルチモーダル大規模言語モデル(MLLM)の下流機能を分離する新しい評価フレームワークを導入し、VTC性能の純粋な評価を可能にします。
- テストサンプル間の意味的相関を低く保つよう設計された ZeroSense Benchmark を提示し、評価が下流推論ではなく VTC 品質を反映するようにします。
- VTC 品質と下流タスクの精度は大きく乖離することがあるという所見を示し、タスク性能に依存する現行指標の限界を浮き彫りにします。
- 複数データセットにわたる広範な実験を報告し、信頼性のある VTC 評価とベンチマークには分離評価が不可欠であることを示します。

