LAG-XAI:Transformer潜在空間における解釈可能な言い換えのための、リード(Lie)に着想を得たアフィン幾何学フレームワーク

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、パラフレーズ(言い換え)を離散的な単語の置換ではなく、Transformerの埋め込み/潜在空間における連続的なアフィン変換(幾何学的フロー)として扱う、リード(Lie)に着想を得たアフィン幾何学フレームワークLAG-XAIを提案する。
  • 局所的なリード群の作用に着想を得た計算効率の高い平均場近似を導入し、言い換えの遷移を解釈可能な要素に分解する:回転、変形、並進。
  • PIT-2015のノイズを含むTwitterコーパス(Sentence-BERT埋め込み)での実験により、「線形透明性」効果が示される。アフィン作用素はAUC 0.7713に到達し、非線形ベースラインの有効な分類能力の約80%を保持した。
  • 不変量として、安定した再構成角(約27.84°)や、局所等長性を示唆するほぼゼロの変形などを特定し、TURLデータセットでの検証によってコーパス間の汎化を示す。
  • 実用例として、LAG-XAIはLLMの幻覚(ハルシネーション)検出に用いられ、「意味的コリドー」を逸脱する差異に対する“安価な幾何学的チェック”により、HaluEvalで事実歪曲の検出率95.3%を達成する。

Abstract

現代のTransformerベースの言語モデルは、自然言語処理タスクにおいて強い性能を達成していますが、その潜在意味空間は依然としてほとんど解釈不能なブラックボックスのままです。本論文では、LAG-XAI(Explainable AIのためのLie Affine Geometry)という新しい幾何学的枠組みを導入します。そこでは、言い換えを離散的な単語の置換としてではなく、埋め込み空間内での構造化されたアフィン変換としてモデル化します。言い換えを、意味マニフォールド上での連続的な幾何学的フローとして捉えることで、局所的なLie群作用に着想を得た計算効率の高い平均場近似を提案します。これにより、言い換え遷移を幾何学的に解釈可能な構成要素へ分解できます:回転、変形、並進です。Sentence-BERTで符号化されたノイズのあるPIT-2015 Twitterコーパスでの実験により、「線形透過性(linear transparency)」という現象が明らかになりました。提案するアフィン演算子は、AUC 0.7713を達成します。ランダムな偶然に対して正規化(AUC 0.5)すると、モデルは非線形ベースラインの有効な分類能力(AUC 0.8405)の約80%を捉えており、絶対的な精度がわずかに低下する代わりに、明示的なパラメトリックな解釈可能性が得られます。このモデルは、安定した行列再構成の角度(約27.84{\deg})や、ほぼゼロの変形といった基本的な幾何学的不変量を同定し、局所的等長性(isometry)を示します。独立したTURLデータセットに対する直接のクロスコーパス検証により、ドメインをまたいだ汎化が確認されます。さらに、LAG-XAIの実用的有用性は、LLMの幻覚(ハルシネーション)検出で示されます。「安価な幾何学チェック(cheap geometric check)」を用いることで、許容される意味のコリドーを超える逸脱を登録することにより、HaluEvalデータセットにおける事実の歪曲の95.3%を自動的に検出しました。このアプローチは、Transformerのメカニズムに基づく解釈可能性へ向けた、数学的に裏付けられた資源効率の高い道筋を提供します。