PINGALA:サンスクリット詩生成のための韻律(プロソディ)対応デコーディング

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、サンスクリット詩生成のための韻律(プロソディ)を考慮したデコーディング手法であるPINGALAを提案する。韻文をグループ化された行に分割することで意味の一貫性を約10%改善しつつ、韻律への適合度は同程度に維持する。

Abstract

サンスクリット語における詩の生成では、通常、韻文が意味的に首尾一貫しており、厳格な韻律(プロソディ)の規則に従う必要があります。サンスクリット語の韻律では、韻文の各行は一般に、音節の重み(重み付け)に関する定められた二値パターンに従う、固定長の音節列として扱われます。私たちは、韻文を一枚岩の列として扱うのではなく、グループ化された行として分節化することで、韻律への適合度を同程度に保ったまま、意味的首尾一貫性が10 %改善することを観察しました。具体的には、提案するデコーディング手法である PINGALA は、各行が良く形成された語を持つことを促すように設計されており、より長いトークンを優先することで、モデルのトークン選択バイアスによりそれが強くなるようにしています。サンスクリット語での記述は音素に基づく表記体系に従うため、音韻に配慮した転写方式である SLP1 を用いることで、意味的類似度を同程度に保ったまま、韻律的整合性が46 %向上しました。Phi-4 のような、指示により微調整された大規模言語モデルに対してです。さらに、真の詩の実例との整合がより良いことを達成した、クロスエンコーダを用いた参照不要の評価のための新しい手法も導入します。