CLIPにおけるモーダル内ミスアラインメント仮説の再評価

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は CLIP におけるモーダル内ミスアラインメント仮説を再評価し、画像埋め込み距離には追加の自由度が存在しないと論じている。
言語-画像で訓練されたモデル（CLIP、SigLIP）と画像-画像で訓練されたモデル（DINO、SigLIP2）は、CLIP 特有のミスアラインメント説に異を唱える、類似の経験的指標を示す。
検索や few-shot 分類といったモーダル内タスクの実験結果は、想定されたミスアラインメントではなく、タスクの曖昧性に対処することが性能を左右することを示している。
本研究は、モーダル内ミスアラインメント仮説を擁護する際に用いられる理論的主張と測定指標の再検討を促す。

要旨: 最近の研究は、CLIPのような対照的な言語-画像トレーニングによって生成される埋め込みは、画像のみのタスクには最適でないことを示唆しています。主要な理論は、モーダル間（言語-画像）整合の損失がモーダル内（画像-画像）整合を無視し、画像間の距離が適切に較正されていない原因となるというものです。本研究では、このモーダル内の不整合仮説を検証します。その基礎理論的議論、支持に用いられた指標、および影響を受けるパフォーマンス指標を再検討します。理論的議論に関しては、画像埋め込み距離に対してそのような仮定の自由度は存在しないことを示します。実証的な測定に関しては、我々の知見は言語-画像で訓練されたモデル（CLIP、SigLIP）と画像-画像で訓練されたモデル（DINO、SigLIP2）で同様の結果を生むことを示しています。これは、観察された現象が前者に特有の不整合に起因するものではないことを示しています。一般によく研究されているモーダル内タスクであるリトリーバルと少数ショット分類の実験は、最良の結果を得るには、想定される不整合ではなくタスクの曖昧さに対処することが鍵であることを確認しています。

返却形式: {"translated": "翻訳されたHTML"}

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

CLIPにおけるモーダル内ミスアラインメント仮説の再評価

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer