収束的進化：異なる言語モデルが似た数の表現を学習する方法

arXiv cs.CL / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多くの自然言語テキストで学習された言語モデルが、T=2、5、10を主要な周期として数を周期的な特徴で表現することを示しています。
論文では2階層の特徴の階層構造を特定し、Transformerや線形RNN、LSTM、古典的な単語埋め込みなどは共通してFourier領域で「周期T」のスパイク特徴を学習する一方、mod-Tの数を線形分類できる幾何学的に分離可能な特徴を学習するのは一部のモデルだけであると述べています。
幾何学的分離を達成するにはFourier領域の疎性が必要だが十分ではない、ということを著者らが証明し、似た周期信号への収束が起きても分類上の構造がモデル間で異なる理由を説明しています。
実験では、幾何学的に分離可能な特徴が生まれるかどうかが、データ、アーキテクチャ、オプティマイザ、トークナイザの組み合わせで決まることを示しており、得る経路として（1）一般言語データにおけるテキスト—数の共起や異なる数同士の相互作用といった補完的な共起信号、（2）単一トークンではなく複数トークンの加算問題が挙げられます。
全体として本研究は、「収束的進化」として、異なるモデルが異なる学習信号を通じて似た数の表現へ至る現象を強調しています。