Abstract
ソウル韓国語のイントネーション構造は、イントネーション音韻論のオートセグメンタル・メトリカル(Autosegmental-Metrical)モデルのもとで、離散的な声調カテゴリとして定義されている。しかし、実環境の発話ではF_0の実現が変動するため、連続的なF_0輪郭をこれらの不変カテゴリへ写像することは困難である。本論文では、ソウル韓国語におけるきめ細かなピッチアクセントのパターンを頑健に分類するための、深層教師ありコントラスト学習フレームワークであるDual-Globを提案する。従来の局所的な予測モデルとは異なり、本アプローチは共有潜在空間において、クリーンな視点と拡張(augmented)された視点の間に構造的一貫性を課すことで、全体的なF_0輪郭の形状を捉える。これを目的として、手動で注釈されたソウル韓国語のアクセント付き句(Accentual Phrases)10,093個からなる、最初の大規模ベンチマークデータセットを導入する。実験結果は、提案手法Dual-Globが、最先端の精度(77.75%)およびF1スコア(51.54%)を達成し、強力なベースラインモデルを大きく上回ることを示している。したがって本研究は、データ駆動型の方法論によってAMベースのイントネーション音韻論を支持するものであり、深層コントラスト学習が連続的なF_0輪郭の全体的な構造特徴を効果的に捉えることを示している。