みなさん、こんにちは。
私はベクトルデータベース、ANN検索、そしてプライバシーを保護する手法(具体的にはPHE)について調べていて、ぜひ皆さんの意見を伺いたい設計上の行き詰まりに直面しています。
問題:
ベクトルDBにANN(HNSW、IVFなど)を使うのは、大規模における高速な類似検索にとても有効です。
しかし、ここに部分準同型暗号(PHE)を導入すると、効率よくANNを使うことができなくなります。
これは、暗号化された埋め込みによって線形スキャンまたは厳密な計算を強いられ、ANNが役に立たなくなるためです。
検討していること:
その回避策として私が考えているのは、そもそもベクトルDBを完全にやめて、埋め込みを標準的なデータベースにBLOBとして保存し、RFIDのような仕組み、もしくはタグベースのフィルタリングを使って、類似度計算を行う前に候補を絞り込むことです。
狙いは、まずメタデータで探索空間を縮小し、その後でずっと小さなサブセットに対して類似度を計算することです。
懸念:
これは、何百万もの埋め込みにスケールできますか?
実際に、データベースの取得とフィルタリングはANNより速いのでしょうか?
私は、より劣ったバージョンのベクトルデータベースを作り直しているだけなのでしょうか?
コミュニティへの質問:
- 暗号化された埋め込みとANNを、現実的に組み合わせる方法はありますか?
- セキュアエンクレーブ、部分復号、あるいは段階的(ティアード)な検索のようなハイブリッド手法で、本番運用で実際に機能しているものはありますか?
- メタデータ優先のフィルタリング(RFIDやタグでサブセット化してから類似度計算)を行うパイプラインは、私が考えているよりもスケールしやすいですか?
- プライバシーを保護したベクトル検索を、大規模に実現している実世界のシステムはありますか?
背景:
想定する規模は、100万件以上の埋め込みです。
優先事項は、プライバシーと性能のバランスです。
ユースケースは、埋め込みを安全に保管しつつ高速に検索・取得することです。
洞察、論文、またはアーキテクチャの提案があればとても助かります。
[link] [comments]




