findsylls: 音節レベルの音声トークン化と埋め込みのための言語非依存ツールキット
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- findsyllsは、古典的な音節検出器とエンドツーエンドの音節化器を共通のインターフェースで統合することで、音節セグメンテーションを標準化するモジュール型の言語非依存ツールキットとして導入されます。
- このフレームワークは、音節埋め込みの抽出と多粒度評価をサポートし、トークン率、表現、アルゴリズムを制御した形で比較できるようにします。
- SylberやVG-HuBERTといった既存手法を実装・標準化しつつ、コンポーネントを組み替えて再現可能な実験を可能にします。
- 本論文では、英語およびスペイン語のコーパスでこのツールキットを示し、新たに手作業でアノテーションしたデータを用いて、十分に文書化されていない中部マンデ語(Kono)へ拡張します。
- 高リソース言語と低リソース言語の両方に対する単一のパイプラインを提供することで、findsyllsは音節化研究における断片化を減らし、研究間の比較可能性を向上させることを目指します。



