教師なし韻認識における学習データ量の感度

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、RhymeTaggerを用いて、詩のコーパスにおける韻の反復パターンに基づく言語非依存のツールとして、教師なし韻認識の性能が学習データ量にどれほど敏感かを調査する。
7つの言語にわたってRhymeTaggerを評価し、学習サイズと異言語間の違いの両方が分類精度に与える影響を分析する。
現実的なベンチマークを確立するため、著者らは手作業で注釈した詩のサブセットにおける複数注釈者間の一致度を測定し、専門家間の不一致の原因（音韻の類似性や、韻を踏む語同士の位置的距離など）を特定する。
本研究では、ワンショット設定で3つの大規模言語モデルとRhymeTaggerを比較し、強力な音韻表現を備えないLLMでは苦戦する一方で、学習データが十分にある場合にはRhymeTaggerが人間の一致度を上回り得ることを見出す。