Abstract
自然言語は、頑健な統計的規則性を示す複雑なシステムである。ここでは、トランスフォーマ型言語モデルによって生成される高次元の埋め込み空間における軌跡としてテキストを表し、埋め込みステップ信号を用いてトークン列に沿ったスケール依存のゆらぎを定量化する。複数の言語およびコーパスにわたって得られるパワースペクトルは、拡張された周波数範囲にわたり、指数が5/3に近い頑健なべき乗則を示す。このスケーリングは、人間が執筆したテキストとAIが生成したテキストの双方の文脈埋め込みにおいて一貫して観測されるが、静的な単語埋め込みでは観測されず、トークン順序のランダム化によって破壊される。これらの結果は、観測されたスケーリングが語彙統計だけではなく、多重スケールで文脈に依存した組織化を反映していることを示している。乱流におけるコルモゴロフ・スペクトルとの類推により、本研究の知見は、意味情報が言語スケール全体にわたってスケールフリーで自己相似的な方法で統合されていることを示唆しており、言語表現における複雑な構造を研究するための定量的でモデル非依存のベンチマークを提供する。


