ビジュアル・レイト・チャンキング:効率的な視覚ドキュメント検索のための文脈的チャンキングに関する実証研究

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチベクトルモデルにおける高い保存・計算コストという課題に取り組みつつ、細粒度のマッチング品質を維持することで、視覚ドキュメント検索(VDR)を扱う。
  • パッチレベル埋め込みに対する階層的クラスタリングに加え、空間的セマンティックの一貫性を担保する2次元の位置的事前(prior)を用いたマルチモーダル・レイト・チャンキングを行う、プラグアンドプレイ型フレームワークColChunkを提案する。
  • ColChunkは、視覚コンテンツを適応的にグルーピングして、グローバルな文脈を保持しつつ、保存するベクトル数を大幅に削減した文脈化マルチベクトルを生成する。
  • 24のVDRデータセットでの実験により、ColChunkは保存量を90%以上削減でき、代表的なシングルベクトルモデルにおいてnDCG@5の検索ランキング品質を平均9ポイント向上させることが示される。
  • 著者らは、ColChunkを、デプロイ可能な視覚ドキュメントシステムにおいて検索精度と効率のバランスを取るための実用的アプローチとして位置づけている。

Abstract

多ベクトルモデルは、きめ細かなマッチング能力により視覚ドキュメント検索(VDR)を支配していますが、高い保存コストと計算コストが実運用における大きな障壁となっています。本論文では、効率的かつ文脈化された多ベクトルを構築するために、多モーダルのレイトチャンク化を導入するプラグアンドプレイ型フレームワーク「ColChunk」を提案します。既存のプルーニング手法や固定トークン方式とは異なり、ColChunkは、パッチレベル埋め込みに対して階層的クラスタリングを行い、さらに空間的・意味的な整合性を保証するために2D位置の事前知識を融合させます。この適応的なグルーピングにより、グローバルな文脈を保持しつつ、ベクトル数を大幅に削減するコンテンツに応じた表現が可能になります。24のVDRデータセットにわたる評価により、ColChunkは保存要件を90%以上削減することに加えて、代表的な単一ベクトルモデルにおいてnDCG@5が平均で9ポイント向上することを示します。ColChunkは、視覚ドキュメントシステムにおいて検索精度と効率のバランスを取るための実用的な解決策を提供します。