GeoLAN: 大規模言語モデルにおける潜在的説明方向の幾何学的学習

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

GeoLAN は、トークン表現を幾何学的軌跡として扱う学習フレームワークを導入し、等方性と多様なアテンションを促進する二つの微分可能な正則化項、KT-CW と KT-Attn を用いる。
本アプローチは機構的解釈性の向上を図り、特定の公平性バイアスを低減することを目指す。Gemma-3 および Llama-3-8B での実験は、幾何学的指標の改善と並行してタスク精度を維持しており、特に中規模モデルで顕著である。
結果は、幾何学的精度とパフォーマンスの間にスケール依存のトレードオフがあることを明らかにし、幾何学を意識した訓練を将来の大規模言語モデル研究の有望な方向性として示唆している。
本研究は、モデル研究およびアイデアと深層分析の分野における新たな幾何情報訓練の潮流を強調し、解釈性を即時の産業展開よりも重視している。

要旨: 大規模言語モデル（LLMs）は高い性能を示す一方で、透明性に欠けることが多い。私たちは GeoLAN を導入する。これはトークン表現を幾何学的軌跡として扱い、Kakeya Conjecture に関連する最近の展開に触発された粘着性条件を適用するトレーニングフレームワークである。私たちは等方性を促進し多様なアテンションを奨励する、Katz-Tao Convex Wolff (KT-CW) および Katz-Tao Attention (KT-Attn) の二つの微分可能な正則化項を開発した。Gemma-3（1B、4B、12B）および Llama-3-8B を用いた実験は、GeoLAN がしばしばタスク精度を維持しつつ、幾何学的指標を改善し、特定の公平性バイアスを低減することを示している。これらの利点は中規模モデルで最も顕著である。われわれの所見は、幾何学的精度と性能の間にスケール依存のトレードオフがあることを示しており、幾何学を意識したトレーニングが機構的解釈性を高める有望なアプローチであることを示唆している。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

GeoLAN: 大規模言語モデルにおける潜在的説明方向の幾何学的学習

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer