スケッチとテキストの相乗効果：構造輪郭と記述属性を融合してきめ細かな画像検索を実現

arXiv cs.CV / 2026/4/20

📰 ニュースModels & Research

共有:

要点

本論文は、手描きスケッチとテキストによるきめ細かな画像検索におけるモダリティギャップ（構造輪郭はスケッチ、色や質感などの見た目手がかりはテキスト）の問題に取り組む。
スケッチから得られる構造的な輪郭と、テキストが提供する色・質感の情報を融合する「Sketch and Text Based Image Retrieval（STBIR）」を提案し、検索精度を高める。
STBIRは、品質の異なるクエリへの頑健性を高めるカリキュラム学習ベースの頑健性強化モジュール、表現力を高めるカテゴリ知識に基づく特徴空間最適化モジュール、多段階のクロスモーダル整合によりズレを抑える仕組みの3要素で構成される。
さらに、提案手法の有効性を検証するための「fine-grained STBIRベンチマーク」データセットも構築し、広範な実験により既存の最先端手法を大きく上回ることを示す。
総じて、本研究はスケッチ・テキストに基づくきめ細かな画像検索の新しいマルチモーダル手法と、今後の研究を支えるベンチマークの両方を提供する。

要旨: 手描きスケッチまたはテキストによる記述を介したきめ細かな画像検索は、本質的なモダリティ間ギャップのため、依然として重要な課題である。手描きスケッチは複雑な構造的輪郭を捉える一方で、色や質感を欠いており、空間的輪郭を省いているにもかかわらずテキストはそれらを効果的に提供する。これらのモダリティが相補的であることに動機づけられ、Sketch and Text Based Image Retrieval（STBIR）フレームワークを提案する。テキストから得られる豊かな色および質感の手がかりと、スケッチが提供する構造的な輪郭を相乗的に統合することで、STBIRはきめ細かな検索において優れた性能を達成する。まず、品質が異なる問い合わせを扱う際のモデルの頑健性を高めるために、カリキュラム学習に駆動された頑健性強化モジュールを提案する。次に、カテゴリー知識に基づく特徴空間最適化モジュールを導入し、それによりモデルの表現力を大幅に向上させる。最後に、クロスモーダルな特徴アラインメントの課題を効果的に緩和するためのマルチステージのクロスモーダル特徴アラインメント機構を設計する。さらに、提案するフレームワークの有効性を厳密に検証し、後続の関連研究のための参照となるデータサポートを提供することを目的として、きめ細かなSTBIRベンチマークデータセットを構築する。大規模な実験の結果、提案するSTBIRフレームワークは最先端の手法に比べて大幅に優れていることが示される。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

Dev.to

記憶する“Space”を作った

Dev.to

スケッチとテキストの相乗効果：構造輪郭と記述属性を融合してきめ細かな画像検索を実現

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

ローカルLLM入門ガイド（Mac - Appleシリコン）

スキルは本当に上手く動いている？ Evalsでエージェントのスキルを体系的に検証する

記憶する“Space”を作った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer