要旨: 最近の研究は、CLIPのような対照的な言語-画像トレーニングによって生成される埋め込みは、画像のみのタスクには最適でないことを示唆しています。主要な理論は、モーダル間(言語-画像)整合の損失がモーダル内(画像-画像)整合を無視し、画像間の距離が適切に較正されていない原因となるというものです。本研究では、このモーダル内の不整合仮説を検証します。その基礎理論的議論、支持に用いられた指標、および影響を受けるパフォーマンス指標を再検討します。理論的議論に関しては、画像埋め込み距離に対してそのような仮定の自由度は存在しないことを示します。実証的な測定に関しては、我々の知見は言語-画像で訓練されたモデル(CLIP、SigLIP)と画像-画像で訓練されたモデル(DINO、SigLIP2)で同様の結果を生むことを示しています。これは、観察された現象が前者に特有の不整合に起因するものではないことを示しています。一般によく研究されているモーダル内タスクであるリトリーバルと少数ショット分類の実験は、最良の結果を得るには、想定される不整合ではなくタスクの曖昧さに対処することが鍵であることを確認しています。
返却形式: {"translated": "翻訳されたHTML"}
