教師なしクロスドメイン画像検索のためのテキスト-位相シナジーネットワークと二重の事前情報

arXiv cs.CV / 2026/3/16

📰 ニュースModels & Research

共有:

要点

本論文は教師なしのクロスドメイン画像検索を扱い、離散的な疑似ラベルに依存することと、ドメインとセマンティック情報が絡み合っているという限界を指摘する。
TPSNet を提案し、CLIP によって生成されたドメイン・プロンプトをテキストの事前情報として用い、ドメイン間でより正確な意味的監督を提供する。
ドメイン分布のギャップを埋めつつ意味的整合性を保つ、ドメイン不変の位相特徴を位相事前情報として導入する。
テキスト事前情報と位相事前情報の組み合わせは、教師なしクロスドメイン画像検索の最先端手法を大幅に上回る改善を達成する。

要約: この論文は、ラベル付きデータに依存せず、異なるドメイン間で同一カテゴリの画像を取得することを目的とする監視なしのクロスドメイン画像検索（UCDIR）を研究します。既存の手法は通常、クラスタリングアルゴリズムに由来する疑似ラベルを、ドメイン内表現学習とクロスドメイン特徴整合の監督信号として利用します。しかし、これらの離散的な疑似ラベルは、正確で包括的な意味的指導を提供できないことがよくあります。さらに、整合プロセスは、ドメイン特有の情報と意味情報との絡み合いを見落とすことが多く、学習された表現の意味的な劣化を招き、最終的に検索性能を低下させます。本論文は、Dual Priorsを持つText-Phase Synergy Network（TPSNet）を提案することでこれらの制限に対処します。具体的には、まずCLIPを用いて各ドメインごとにクラス特異的なプロンプトのセットを生成し、domain promptと呼ばれるテキストプライアを提供します。これにより、より正確な意味的監視を提供します。同時に、ドメイン不変の位相特徴で表されるphase priorsを導入し、元の画像表現に統合して、意味の一貫性を保ちつつドメイン分布のギャップを埋めます。これら二つの事前情報の相乗効果を活用することで、TPSNetはUCDIRベンチマークにおいて最先端手法を大幅に上回ります。

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

MarkTechPost

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Dev.to

Tinybox - オフラインAIデバイス、1200億パラメータ

Hacker News

教師なしクロスドメイン画像検索のためのテキスト-位相シナジーネットワークと二重の事前情報

要点

関連記事

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

信頼度推定・自己評価・自動ウェブリサーチを備えた不確実性を考慮したLLMシステムを構築するためのコーディング実装

DNA Memory: AIエージェントを人間の脳のように学習・忘却・進化させる

Tinybox - オフラインAIデバイス、1200億パラメータ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer