自然言語における情報の周期性を特定する

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、自然言語が情報の符号化において周期的なパターンを持つかどうかを、サプライズ(驚き)に基づいて検討します。
  • 「AutoPeriod of Surprisal(APS)」という手法を提案し、単一ドキュメントのサプライズ系列に対して標準的な周期性検出アルゴリズムを適用できるとしています。
  • 複数のコーパスへの適用により、人間の言語のかなりの割合で情報の周期性が強い形で観測されることが示唆されます。
  • さらに、文境界などの典型的なテキスト構造単位の分布から外れる新たな有意な周期が見つかり、調和回帰モデルによって裏付けられます。
  • これらの周期性は、構造化された要因と、より長距離で作用する別の要因の双方による「結果」であると結論づけ、LLM生成テキストの検出への可能性も議論します。

Abstract

自然言語における情報密度の最近の理論的進展により、次の問いが提起されました。すなわち、自然言語は、その符号化された情報においてどの程度周期性パターンを示すのか、という問いです。本研究では、AutoPeriod of Surprisal(APS)と呼ぶ新しい手法を導入することでこの問いに取り組みます。APSは正準的な周期性検出アルゴリズムを採用しており、単一文書の驚き(surprisal)系列に存在する任意の有意な周期を特定することができます。このアルゴリズムを一連のコーパスに適用したところ、次の興味深い結果が得られました。第一に、人間の言語のかなりの割合が、情報における強い周期性パターンを示すことがわかりました。第二に、テキストの典型的な構造単位の分布(例:文境界、初歩的な談話ユニットなど)の外側にある新しい周期が見つかり、調和回帰(harmonic regression)によるモデリングを通じてさらに確認されました。以上より、言語における情報の周期性は、構造的要因と、より長い距離で作用する他の駆動要因との双方の共同的な結果であると結論づけます。本研究の周期性検出手法の利点およびLLM生成検出における可能性について、さらに議論します。