ビジュアル・レイト・チャンキング:効率的な視覚ドキュメント検索のための文脈的チャンキングに関する実証研究
arXiv cs.CV / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチベクトルモデルにおける高い保存・計算コストという課題に取り組みつつ、細粒度のマッチング品質を維持することで、視覚ドキュメント検索(VDR)を扱う。
- パッチレベル埋め込みに対する階層的クラスタリングに加え、空間的セマンティックの一貫性を担保する2次元の位置的事前(prior)を用いたマルチモーダル・レイト・チャンキングを行う、プラグアンドプレイ型フレームワークColChunkを提案する。
- ColChunkは、視覚コンテンツを適応的にグルーピングして、グローバルな文脈を保持しつつ、保存するベクトル数を大幅に削減した文脈化マルチベクトルを生成する。
- 24のVDRデータセットでの実験により、ColChunkは保存量を90%以上削減でき、代表的なシングルベクトルモデルにおいてnDCG@5の検索ランキング品質を平均9ポイント向上させることが示される。
- 著者らは、ColChunkを、デプロイ可能な視覚ドキュメントシステムにおいて検索精度と効率のバランスを取るための実用的アプローチとして位置づけている。




