ウクライナ語のエントロピー

arXiv cs.CL / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、次の文字を予測する実験により、ウクライナ語の文字レベルのエントロピー(不確実性/複雑さ)を調べています。
  • ウクライナ語に対してシャノン流のエントロピー推定を行う最初の試みとして位置づけられ、ソーシャルメディア経由で184名を募集しています。
  • 先行研究(英語)で用いられた手法を応用し、ウクライナ語のエントロピー上限を1文字あたり約1.201ビットと推定しています。
  • 推定された上限値を、現在の大規模言語モデルの性能と比較しています。
  • 実験の手順・コードは公開され、ウクライナ語での実施における主要な課題についても論じられています。

概要: 自然言語処理において、言語のエントロピーは、その不確実性と複雑さを測る指標である。この主題に関する最初の研究は、1951年にクロード・シャノンによって行われた。参加者に文中の次の文字を予測させることで、彼は英語の言語エントロピーを近似できることを示した。その後、英語を対象としたいくつかの追試研究や、ヘブライ語を対象とした研究が実施されている。しかし、今日に至るまで、シャノンの実験はウクライナ語では実施されたことがない。本論文では、ソーシャルメディアのチャネルを通じて184名のボランティアを募集し、ウクライナ語に対してこの実験を行う。英語で用いられた手法に依拠して、ウクライナ語のエントロピー値を近似する。最終結果は、文字あたりの上界として H_{upper}\approx1.201 ビットである。これを、現在の大規模言語モデルの性能と比較する。用いた手法およびコードも、主要な課題として遭遇した点の議論とともに文書化され、公開されている。