広告

少し保存して、もっと見つける:エッジカメラにおける新規性フィルタリングがクロスモーダル検索を改善する方法

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、常時稼働のエッジカメラでは冗長なフレームが top-k 結果内の正しいマッチを押しのけることで、クロスモーダル検索が劣化することを主張する。
  • 半導体上(オンデバイス)の epsilon-net 新規性フィルタを用いるストリーミング検索アーキテクチャを提案し、意味的に新規なフレームのみを保持して、ノイズ除去された埋め込みインデックスを構築する。
  • コンパクトなオンデバイスエンコーダを用いることによるアラインメントの制約に対処するため、システムはクロスモーダルアダプタに加えてクラウド側の再ランカ(re-ranker)を導入する。
  • 単一パスの実験では、この手法が、8つの視覚-言語モデルについて2つの自分視点(egocentric)データセット(AEA および EPIC-KITCHENS)上で、いくつかのオフラインのフレーム選択ベースライン(k-means、farthest-point、uniform、random)を上回る。
  • 本手法は、保持データでの Hit@5 が 45.6% と高い検索品質を報告しつつ、8M のオンデバイスエンコーダで動作し、推定消費電力は非常に低い 2.7 mW である。

Abstract

Always-on のエッジカメラは、冗長なフレームが正しい結果を top-k 検索から押し出すことで、クロスモーダル検索を劣化させてしまう連続的な動画ストリームを生成します。本論文では、ストリーミング検索アーキテクチャを提案します。オンデバイスの epsilon-net フィルタが意味的に新規なフレームのみを保持し、それによってノイズ除去された埋め込みインデックスを構築します。さらに、クロスモーダルアダプタとクラウドの再ランキングにより、コンパクトなエンコーダの弱いアラインメントを補います。単一パスのストリーミングフィルタは、8つの視覚-言語モデル(8M-632M)において、2つのエゴセントリック・データセット(AEA、EPIC-KITCHENS)で、オフライン代替手法(k-means、farthest-point、uniform、random)よりも優れます。結合したアーキテクチャは、保持データで Hit@5 が 45.6% に達し、推定 2.7 mW の 8M オンデバイス・エンコーダを使用します。

広告