AI Navigate

GhazalBench: ペルシャ語のガザールに対する使用状況に基づく LLM の評価

arXiv cs.CL / 2026/3/12

📰 ニュースModels & Research

要点

  • GhazalBench は、ペルシャ語のガザールに対する使用状況を前提とした評価指標として導入され、忠実な意訳の作成と正典の詩句へのアクセスに焦点を当てている。
  • 複数の専有型およびオープンウェイトの多言語 LLM にわたる評価は、一貫した乖離を示す:モデルは一般に詩的意味を捉えるが、完成ベースのタスクで正確な詩句の想起に苦労する。一方、認識ベースのタスクはこのギャップを大幅に縮小する。
  • 英語のソネットのベンチマークは再現性が著しく高く、これらの限界は訓練データへの露出の差に起因することを示唆している。
  • 著者らは、意味・形式・手掛かり依存的アクセスを同時に評価する評価フレームワークの必要性を提案しており、GhazalBench はリンクされた GitHub リポジトリで公開されている。
ペルシア語の詩はイランの文化的実践において活発な役割を果たしており、ハーフェズのような正典詩人の詩句は頻繁に引用、言い換え、部分的な手掛かりから完成させられることがある。このような相互作用を支えるには、言語モデルは詩的意味だけでなく、文化的に根付いた表層形式にも関与する必要がある。我々は GhazalBench を導入する。これは、使用状況に基づく条件下でペルシャ語のガザールと大規模言語モデル(LLMs)がどのように相互作用するかを評価するベンチマークである。GhazalBench は、二つの補完的な能力を評価する:対句の忠実な散文的言い換えを作成することと、意味的・形式的手掛かりに応じて正典の詩句へアクセスすること。複数の専有型およびオープンウェイトの多言語 LLM にまたがる評価では、一貫した乖離が観察される。モデルは詩的意味を概ね捉えるが、完成ベースの設定で正確な詩句の想起には苦労する。一方、認識ベースのタスクはこのギャップを大幅に縮小する。英語のソネットに関する並行評価は、再現性が著しく高いことを示しており、これらの限界は訓練データへの露出の差に起因することを示唆している。我々の知見は、意味・形式・手掛かり依存的アクセスを共同で評価する評価フレームワークの必要性を強調する。GhazalBench は https://github.com/kalhorghazal/GhazalBench で公開されている。