Bag of Bags：Genizahの綴じ（join）画像検索のための適応的視覚語彙

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一のグローバルなBag-of-Wordsのコードブックではなく、断片ごとの視覚語彙を用いて同一の物理的な写本から他の断片を検索することで、写本の「綴じ（join）」を特定するための新しい画像検索手法「Bag of Bags（BoB）」を提案する。
BoBは、二値化した断片パッチに対する疎な畳み込みオートエンコーダで学習し、次にページごとの連結成分を符号化し、画像ごとにk-meansで埋め込みをクラスタリングし、その局所語彙同士の集合間距離により断片を比較する。
カイロGenizah断片データにおいて、Chamfer距離を用いた最良のBoB変種は、Hit@1 = 0.78、MRR = 0.84という検索性能を達成し、最も強力な従来型のBoWベースライン（Hit@1 = 0.74、MRR = 0.80）に対して相対的なトップ1で6.1%の改善を示す。
著者らはさらに、クラスタの母数（population）をプロトタイプ照合に組み込む、質量重み付きBoB-OT変種も提案しており、全成分レベルの最適輸送に対して理論的な近似保証を与える。
スケーラビリティのため、本論文では、より大規模な写本コレクションに対して検索精度と計算コストのバランスを取る2段階手法（BoWの短列表→BoB-OTによる再ランキング）を評価する。

AI Business

日経XTECH

日経XTECH

日経XTECH

Reddit r/artificial