概要: 自己教師あり表現学習はしばしば、潜在空間においてコンテキスト視点とターゲット視点を整合させるために決定論的な予測アーキテクチャに依存します。多くの設定では有効ですが、平方損失による予測は条件付き平均へと崩壊しやすく、さらに表現崩壊を防ぐために建築上の非対称性に依存しがちなため、真にマルチモーダルな逆問題においては限界があります。本研究では、生成的ジョイントモデリングに基づく確率的な代替手法を提案します。文脈(コンテキスト)表現とターゲット表現の同時密度をモデル化する Gaussian Joint Embeddings(GJE)と、そのマルチモーダル拡張である Gaussian Mixture Joint Embeddings(GMJE)を導入し、ブラックボックスの予測を、明示的な確率モデルの下での閉形式の条件付き推論に置き換えます。これにより、潜在幾何を制御するための共分散を考慮した目的関数と、原理に基づく不確実性推定が得られます。さらに、単純な経験的バッチ最適化の失敗モードを特定し、Mahalanobis Trace Trap(マハラノビス・トレース・トラップ)と名付けます。そして、プロトタイプベースのGMJE、条件付き Mixture Density Networks(GMJE-MDN)、トポロジー適応型 Growing Neural Gas(GMJE-GNG)、Sequential Monte Carlo(SMC)メモリバンクなど、パラメトリック、適応的、非パラメトリックの各設定にまたがる複数の対処法を開発します。加えて、標準的なコントラスト学習が、GMJEフレームワークにおける退化した非パラメトリックな極限ケースとして解釈できることを示します。合成のマルチモーダル整合タスクおよび視覚ベンチマークでの実験により、GMJEが複雑な条件付き構造を復元し、競争力のある識別的表現を学習し、さらに潜在密度が、決定論的または単峰性のベースラインよりも無条件サンプリングに適したものになることを確認します。
自己教師あり表現学習のためのGaussian Joint Embeddings
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自己教師あり表現学習で文脈・目標の潜在表現を合わせる際に、決定論的な予測(回帰)に代わる確率的な生成ジョイントモデリングとしてGaussian Joint Embeddings(GJE)とGaussian Mixture Joint Embeddings(GMJE)を提案している。
- GJE/GMJEは文脈と目標表現の同時密度をモデル化し、ブラックボックス予測ではなく明示的な確率モデルに基づく閉形式の条件付き推論で学習・推論を行うことで、潜在幾何を制御する共分散を考慮した目的関数と不確実性推定を可能にする。
- 著者らは経験的なバッチ最適化で起こる失敗モード「Mahalanobis Trace Trap」を特定し、それに対する複数の対策(プロトタイプベースGMJE、GMJE-MDN、GMJE-GNG、SMCメモリバンクなど)を提示している。
- 標準的なコントラスト学習はGMJEの退化した非パラメトリック極限として解釈できることを示し、既存手法との理論的な接続を与えている。
- 合成のマルチモーダル整合タスクと視覚ベンチマークの実験では、GMJEが複雑な条件構造の復元、競争的な識別表現の学習、より良い潜在密度(無条件サンプリング適性)を示したとしている。



