ZeroSense: 長い文脈圧縮における視覚の重要性

arXiv cs.CV / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

長い文脈圧縮（VTC）品質とマルチモーダル大規模言語モデル（MLLM）の下流機能を分離する新しい評価フレームワークを導入し、VTC性能の純粋な評価を可能にします。
テストサンプル間の意味的相関を低く保つよう設計された ZeroSense Benchmark を提示し、評価が下流推論ではなく VTC 品質を反映するようにします。
VTC 品質と下流タスクの精度は大きく乖離することがあるという所見を示し、タスク性能に依存する現行指標の限界を浮き彫りにします。
複数データセットにわたる広範な実験を報告し、信頼性のある VTC 評価とベンチマークには分離評価が不可欠であることを示します。

要旨: 最近の視覚-テキスト圧縮（VTC）手法は、DeepSeek-OCR をはじめとするものが、テキストを画像にレンダリングして長い文脈のモデリングタスクに対して高いトークン圧縮率を示します。しかし、既存の評価プロトコルは下流タスクの性能に過度に依存しています。こうした評価指標は、マルチモーダル大規模言語モデル（MLLM（Multimodal Large Language Models））の強い固有の言語的先行バイアスのため、テキストの保持を正確に測定できません。本研究では、MLLM群の能力を切り離して VTC 品質を忠実に評価する新しい評価フレームワークを導入します。この枠組みの下で、テストサンプルの意味的相関を低く保つことを目的とした ZeroSense Benchmark をさらに導入します。文脈依存性を排除することにより、評価結果は純粋に VTC 品質を反映することを保証し、下流モデルの意味的推論能力の影響を受けません。複数データセットにわたる広範な実験は、VTC 品質と下流タスクの精度が大きく乖離することを示しており、我々の分離評価フレームワークの必要性を強調します。

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

Innovatopia

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

Qiita

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

GIGAZINE

ZeroSense: 長い文脈圧縮における視覚の重要性

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

NEC、「暗黙知」をAIで可視化—危険の予兆を映像から検出し、改善アドバイスを自動生成する技術を世界初開発

LLMが数学の未解決問題を解いた日 — Epoch.ai FrontierMathと、人間とAIの協働が開く新しい研究スタイル

AI生成で児童性的虐待をリアルに描写した画像・動画は前年比14％増の8029件確認されたという報告、特に動画件数は1年で260倍以上も増加

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer