要旨: 大規模言語モデル(LLMs)は高い性能を示す一方で、透明性に欠けることが多い。私たちは GeoLAN を導入する。これはトークン表現を幾何学的軌跡として扱い、Kakeya Conjecture に関連する最近の展開に触発された粘着性条件を適用するトレーニングフレームワークである。私たちは等方性を促進し多様なアテンションを奨励する、Katz-Tao Convex Wolff (KT-CW) および Katz-Tao Attention (KT-Attn) の二つの微分可能な正則化項を開発した。Gemma-3(1B、4B、12B)および Llama-3-8B を用いた実験は、GeoLAN がしばしばタスク精度を維持しつつ、幾何学的指標を改善し、特定の公平性バイアスを低減することを示している。これらの利点は中規模モデルで最も顕著である。われわれの所見は、幾何学的精度と性能の間にスケール依存のトレードオフがあることを示しており、幾何学を意識したトレーニングが機構的解釈性を高める有望なアプローチであることを示唆している。
GeoLAN: 大規模言語モデルにおける潜在的説明方向の幾何学的学習
arXiv cs.LG / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- GeoLAN は、トークン表現を幾何学的軌跡として扱う学習フレームワークを導入し、等方性と多様なアテンションを促進する二つの微分可能な正則化項、KT-CW と KT-Attn を用いる。
- 本アプローチは機構的解釈性の向上を図り、特定の公平性バイアスを低減することを目指す。Gemma-3 および Llama-3-8B での実験は、幾何学的指標の改善と並行してタスク精度を維持しており、特に中規模モデルで顕著である。
- 結果は、幾何学的精度とパフォーマンスの間にスケール依存のトレードオフがあることを明らかにし、幾何学を意識した訓練を将来の大規模言語モデル研究の有望な方向性として示唆している。
- 本研究は、モデル研究およびアイデアと深層分析の分野における新たな幾何情報訓練の潮流を強調し、解釈性を即時の産業展開よりも重視している。