LAG-XAI:Transformer潜在空間における解釈可能な言い換えのための、リード(Lie)に着想を得たアフィン幾何学フレームワーク
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、パラフレーズ(言い換え)を離散的な単語の置換ではなく、Transformerの埋め込み/潜在空間における連続的なアフィン変換(幾何学的フロー)として扱う、リード(Lie)に着想を得たアフィン幾何学フレームワークLAG-XAIを提案する。
- 局所的なリード群の作用に着想を得た計算効率の高い平均場近似を導入し、言い換えの遷移を解釈可能な要素に分解する:回転、変形、並進。
- PIT-2015のノイズを含むTwitterコーパス(Sentence-BERT埋め込み)での実験により、「線形透明性」効果が示される。アフィン作用素はAUC 0.7713に到達し、非線形ベースラインの有効な分類能力の約80%を保持した。
- 不変量として、安定した再構成角(約27.84°)や、局所等長性を示唆するほぼゼロの変形などを特定し、TURLデータセットでの検証によってコーパス間の汎化を示す。
- 実用例として、LAG-XAIはLLMの幻覚(ハルシネーション)検出に用いられ、「意味的コリドー」を逸脱する差異に対する“安価な幾何学的チェック”により、HaluEvalで事実歪曲の検出率95.3%を達成する。