ソウル方言のピッチアクセント分類のための、ピッチ輪郭の深層教師ありコントラスト学習

arXiv cs.CL / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現実音声でのF0実現のばらつきにより、ソウル韓国語のAM(自律分節メトリック)モデルで定義された離散的な調カテゴリへ連続F0輪郭を対応付けることが難しい点に取り組む。
  • それに対し、Dual-Globという深層教師ありコントラスト学習手法を提案し、共有潜在空間でクリーンな見えと拡張(augmented)された見えを整合させることで、輪郭の全体的な構造を保持する。
  • ソウル韓国語のアクセント句について、10,093件を人手で注釈した大規模ベンチマークデータセットを新たに構築し、きめ細かなピッチアクセント分類を可能にする。
  • 実験ではDual-Globが高い精度を示し、77.75%の精度とF1スコア51.54%を達成して、強力なベースラインを上回った。
  • 総じて、本研究は深層コントラスト学習が連続F0輪郭の頑健で全体的な構造特徴を捉えられることを示し、AMベースのイントネーション音韻論のデータ駆動的アプローチを後押しする。

Abstract

ソウル韓国語のイントネーション構造は、イントネーション音韻論のオートセグメンタル・メトリカル(Autosegmental-Metrical)モデルのもとで、離散的な声調カテゴリとして定義されている。しかし、実環境の発話ではF_0の実現が変動するため、連続的なF_0輪郭をこれらの不変カテゴリへ写像することは困難である。本論文では、ソウル韓国語におけるきめ細かなピッチアクセントのパターンを頑健に分類するための、深層教師ありコントラスト学習フレームワークであるDual-Globを提案する。従来の局所的な予測モデルとは異なり、本アプローチは共有潜在空間において、クリーンな視点と拡張(augmented)された視点の間に構造的一貫性を課すことで、全体的なF_0輪郭の形状を捉える。これを目的として、手動で注釈されたソウル韓国語のアクセント付き句(Accentual Phrases)10,093個からなる、最初の大規模ベンチマークデータセットを導入する。実験結果は、提案手法Dual-Globが、最先端の精度(77.75%)およびF1スコア(51.54%)を達成し、強力なベースラインモデルを大きく上回ることを示している。したがって本研究は、データ駆動型の方法論によってAMベースのイントネーション音韻論を支持するものであり、深層コントラスト学習が連続的なF_0輪郭の全体的な構造特徴を効果的に捉えることを示している。