広告

findsylls: 音節レベルの音声トークン化と埋め込みのための言語非依存ツールキット

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • findsyllsは、古典的な音節検出器とエンドツーエンドの音節化器を共通のインターフェースで統合することで、音節セグメンテーションを標準化するモジュール型の言語非依存ツールキットとして導入されます。
  • このフレームワークは、音節埋め込みの抽出と多粒度評価をサポートし、トークン率、表現、アルゴリズムを制御した形で比較できるようにします。
  • SylberやVG-HuBERTといった既存手法を実装・標準化しつつ、コンポーネントを組み替えて再現可能な実験を可能にします。
  • 本論文では、英語およびスペイン語のコーパスでこのツールキットを示し、新たに手作業でアノテーションしたデータを用いて、十分に文書化されていない中部マンデ語(Kono)へ拡張します。
  • 高リソース言語と低リソース言語の両方に対する単一のパイプラインを提供することで、findsyllsは音節化研究における断片化を減らし、研究間の比較可能性を向上させることを目指します。

Abstract

音節レベルの単位は、音声言語モデリングや教師なしの単語発見に対して、コンパクトで言語学的に意味のある表現を提供します。しかし、音節化に関する研究は、異なる実装・データセット・評価プロトコルにまたがって断片化しています。本研究では、findsylls というモジュール式で言語非依存のツールキットを導入し、音節セグメンテーション、埋め込み抽出、複数粒度の評価のために、古典的な音節検出器とエンドツーエンドの音節化器を共通のインターフェースの下で統合します。このツールキットは、広く用いられている手法(例:Sylber、VG-HuBERT)を実装し、標準化するとともに、それらの構成要素を再結合できるようにします。これにより、表現、アルゴリズム、トークン率の制御された比較が可能になります。findsylls を、英語およびスペイン語のコーパス、ならびに Kono から得られた新しい手作業によるアノテーションデータ(十分に文書化されていない中央マンデ諸語)に対して示し、単一の枠組みが、高資源・低資源の双方の状況で再現可能な音節レベルの実験をどのように支えられるかを説明します。

広告