文埋め込み空間における制御付き言い換えジオメトリ：局所マニホールドモデリングと潜在プロービング

arXiv cs.CL / 2026/5/5

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、意味的に近い文の制御付き言い換えのような変化が、文埋め込み空間の局所的な「埋め込みクラウド」の幾何としてどのように構造化されるかを調べます。
アフィン・二次・三次の低次数の当てはめモデル（キャリア）に基づく局所幾何モデリング手法を提案し、さらに局所PCAの縮約空間上でキャリアに対する合成潜在点を作る「表面ベースの潜在プロービング」手順を導入します。
合成潜在点は、当てはめ表面への整合性、近傍構造の保持、実データ分布との一致、ヘッセ行列に基づく二次の形状記述子と当てはめ係数の安定性などの観点で評価されます。
実験では、非線形の局所モデルがアフィンモデルよりも埋め込みクラウドをより正確に記述し、表面ベース生成は表面整合性、ヘッセ行列による形状整合性、係数整合性を含む強い幾何学的忠実性を示します。
一方で下流実験では、合成潜在点の幾何学的妥当性が自動的に分類性能の向上につながるわけではなく、「幾何学的妥当性」と「識別的有用性」を区別する必要があることを示唆しています。また資源貢献として、スロットレベル注釈と事前計算された文埋め込みを備えた制御テンプレート型データセット「CoPaGE-300K」を公開します。

Abstract

この論文は、semantically close sentences の制御された局所クラスによって誘起される、埋め込みクラウドの局所幾何学を研究する。中心となる問いは、制御された言い換えのような意味の変化が文埋め込み空間でどのように組織化されているのか、そしてこの局所構造が低次数の適合（フィット）キャリアによって明示的にモデル化できるかどうかである。本研究では、アフィン（線形）、二次、および三次の適合モデルに基づく局所幾何学的モデリング手法を導入する。さらに、適合キャリアに関して縮約された局所PCA空間において合成潜在点を構築する、表面ベースの潜在プロービング手順も用いる。この手順は、表現空間解析、局所マニフォールドモデリング、そして幾何学を意識した潜在プロービングのためのオフライン手法として意図されている。生成された潜在点は、適合された表面との整合性、近傍構造の保存、経験分布との一致、ヘッセ（Hessian）ベースの二次形状記述子の安定性、適合モデル係数の安定性を測る基準により評価される。意味的に近い文の制御された集合に対する実験では、非線形の局所モデルがアフィンモデルよりも埋め込みクラウドをより正確に記述することが示される。表面ベースの生成は、表面の整合性、ヘッセベースの形状整合性、係数整合性を含む強い適合幾何学的忠実性を提供する。下流の実験では、合成潜在点の幾何学的妥当性が自動的に分類性能の向上につながらないことが示される。その結果は、文埋め込み空間の明示的な局所幾何学的モデリングを支持し、幾何学的妥当性と判別的有用性を区別する必要性を強調している。リソースとしての貢献として、本研究では \textbf{CoPaGE-300K} を導入する。これは、スロット（項目）レベルの注釈を伴う、意味的に近い文のバリアントをテンプレートベースで制御的に構築したデータセットであり、事前計算済みの文埋め込みを含む。