概要: 本論文では、事前学習済みの視覚エンコーダの潜在空間上で直接動作する、意味的データセット比較のためのスケーラブルな枠組みであるLatentDiffを提示します。疎なオートエンコーダに基づく発散(divergence)テストと密度比推定を組み合わせることで、LatentDiffは、キャプションベースの代替手法に比べて計算コストをわずかな割合に抑えつつ、データセット間の解釈可能な意味的差異を特定します。また、既存手法が苦戦する原因となる、現実的な疎な分布シフトを捉えたベンチマークであるNoisy-Diffも導入します。実験の結果、LatentDiffは、非常に小さな割合の画像(5%から<1%)が意味的に異なるような設定に対しても頑健性を保ちながら、優れた精度を達成することが示されました。
LatentDiff:数百万枚の画像を対象にしたセマンティック・データセット比較のスケーリング
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、キャプションベースの手法ではなく、事前学習済みの視覚エンコーダの潜在空間で直接動作するデータセット比較フレームワーク「LatentDiff」を提案します。
- LatentDiffは、疎なオートエンコーダに基づく発散(divergence)テストと密度比推定を組み合わせ、計算コストを大幅に抑えつつデータセット間の解釈可能なセマンティック差異を特定します。
- 「Noisy-Diff」として、既存手法が苦戦しやすい現実的な疎な分布シフトを表すベンチマークも導入しています。
- 実験では、LatentDiffが高い精度を示し、セマンティックに差がある画像の割合が5%から1%未満という極めて小さい条件でも頑健であることが示されます。
- 全体として、本研究は大規模画像コーパス向けに、効率と頑健性を高めたセマンティック・レベルのデータセット比較を目指しています。




