文埋め込み空間における制御付き言い換えジオメトリ:局所マニホールドモデリングと潜在プロービング
arXiv cs.CL / 2026/5/5
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、意味的に近い文の制御付き言い換えのような変化が、文埋め込み空間の局所的な「埋め込みクラウド」の幾何としてどのように構造化されるかを調べます。
- アフィン・二次・三次の低次数の当てはめモデル(キャリア)に基づく局所幾何モデリング手法を提案し、さらに局所PCAの縮約空間上でキャリアに対する合成潜在点を作る「表面ベースの潜在プロービング」手順を導入します。
- 合成潜在点は、当てはめ表面への整合性、近傍構造の保持、実データ分布との一致、ヘッセ行列に基づく二次の形状記述子と当てはめ係数の安定性などの観点で評価されます。
- 実験では、非線形の局所モデルがアフィンモデルよりも埋め込みクラウドをより正確に記述し、表面ベース生成は表面整合性、ヘッセ行列による形状整合性、係数整合性を含む強い幾何学的忠実性を示します。
- 一方で下流実験では、合成潜在点の幾何学的妥当性が自動的に分類性能の向上につながるわけではなく、「幾何学的妥当性」と「識別的有用性」を区別する必要があることを示唆しています。また資源貢献として、スロットレベル注釈と事前計算された文埋め込みを備えた制御テンプレート型データセット「CoPaGE-300K」を公開します。




