アラビア語と方言における指示誘導型の詩生成

arXiv cs.CL / 2026/5/1

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本研究は、LLMを用いたアラビア語詩の先行研究が主に解釈や韻律・タイトルなどのメタデータ予測といった分析タスクに偏っていた点を踏まえ、詩作そのものを支援する指示誘導型の生成を提案する。
  • Modern Standard Arabic(MSA)および複数のアラビア方言を対象にした大規模で厳選された指示ベースのデータセットを導入し、スタイルや韻に関する条件などを満たしながら、書く・推敲する・続けて書くといった制御可能なタスクを可能にする。
  • 同じ枠組みの中で、詩の分析も行えることが示される。
  • データセットでLLMを微調整すると、ユーザー要件に沿った詩を生成できることが、機械的な評価指標と、母語話者であるアラビア語話者による人手評価の両面で確認された。
  • データとコードは提示されたGitHubリポジトリで公開されており、再現性と今後の発展に寄与する。

要旨: 詩は、アラビア語話者にとって長い間、中心的な芸術形式であり、表現と文化的アイデンティティのための強力な手段として機能してきました。現代のアラビア語話者が引き続き詩を重視している一方で、大規模言語モデル(LLM)におけるアラビア詩に関する既存研究は、主として解釈やメタデータ予測(例:韻律パターンや題名)といった分析タスクに焦点が当てられてきました。それに対して本研究は、ユーザが詩を書くことを支援するための制御可能な生成能力を導入することで、アラビア語における詩作の実践的側面に取り組みます。具体的には、現代標準アラビア語(MSA)およびさまざまなアラビア方言において、大規模で、慎重にキュレーションされた指示ベースのデータセットを提示します。このデータセットにより、作風や韻といった事前に定義された基準に基づいて、詩の作成・改稿・続きの執筆を行うといったタスクや、詩の分析を行うタスクが可能になります。実験の結果、このデータセットでLLMを微調整することで、ユーザの要求に沿った詩を、双方の自動評価指標および母語のアラビア語話者による人手評価に基づいて、効果的に生成できるモデルが得られることが示されました。データとコードは https://github.com/mbzuai-nlp/instructpoet-ar で利用可能です