GhazalBench: ペルシャ語のガザールに対する使用状況に基づく LLM の評価

arXiv cs.CL / 2026/3/12

📰 ニュースModels & Research

共有:

要点

GhazalBench は、ペルシャ語のガザールに対する使用状況を前提とした評価指標として導入され、忠実な意訳の作成と正典の詩句へのアクセスに焦点を当てている。
複数の専有型およびオープンウェイトの多言語 LLM にわたる評価は、一貫した乖離を示す：モデルは一般に詩的意味を捉えるが、完成ベースのタスクで正確な詩句の想起に苦労する。一方、認識ベースのタスクはこのギャップを大幅に縮小する。
英語のソネットのベンチマークは再現性が著しく高く、これらの限界は訓練データへの露出の差に起因することを示唆している。
著者らは、意味・形式・手掛かり依存的アクセスを同時に評価する評価フレームワークの必要性を提案しており、GhazalBench はリンクされた GitHub リポジトリで公開されている。

ペルシア語の詩はイランの文化的実践において活発な役割を果たしており、ハーフェズのような正典詩人の詩句は頻繁に引用、言い換え、部分的な手掛かりから完成させられることがある。このような相互作用を支えるには、言語モデルは詩的意味だけでなく、文化的に根付いた表層形式にも関与する必要がある。我々は GhazalBench を導入する。これは、使用状況に基づく条件下でペルシャ語のガザールと大規模言語モデル（LLMs）がどのように相互作用するかを評価するベンチマークである。GhazalBench は、二つの補完的な能力を評価する：対句の忠実な散文的言い換えを作成することと、意味的・形式的手掛かりに応じて正典の詩句へアクセスすること。複数の専有型およびオープンウェイトの多言語 LLM にまたがる評価では、一貫した乖離が観察される。モデルは詩的意味を概ね捉えるが、完成ベースの設定で正確な詩句の想起には苦労する。一方、認識ベースのタスクはこのギャップを大幅に縮小する。英語のソネットに関する並行評価は、再現性が著しく高いことを示しており、これらの限界は訓練データへの露出の差に起因することを示唆している。我々の知見は、意味・形式・手掛かり依存的アクセスを共同で評価する評価フレームワークの必要性を強調する。GhazalBench は https://github.com/kalhorghazal/GhazalBench で公開されている。

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

note

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

note

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

GhazalBench: ペルシャ語のガザールに対する使用状況に基づく LLM の評価

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜

AIは学術不正の共犯者になるか〜AFIMベンチマークの衝撃〜

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも