要旨: 大規模言語モデル(LLM)は詩を作ることができますが、人間の詩人からどれくらい離れているのでしょうか。本論文では、詩の評価のための最初の包括的な枠組みであるPOEMetricを導入し、1)特定の形式とテーマに従って詩を生成する際の基礎的な指示追従能力、2)創造性、語彙の多様性、特異性を示すといった高度な能力、感情的な共鳴を喚起すること、そしてイメージや文学的な技巧を用いること、3)詩全体の質に対する一般的な評定と、著者性の推定を検討します。私たちは、人間の詩データセットを厳選しました――韻律(メーター)、韻パターン、テーマで注釈が付けられた7つの固定形式の英語詩203編――そして、人間データと同じ形式とテーマに基づく詩生成のために、30のLLMを用いた実験を行い、合計6,090編のLLM詩を作成しました。POEMetricに基づき、ルールベースの評価とLLMを「審判(judge)」として用いる手法の両方によって、人間の詩人とLLMの双方の性能を評価し、その結果は人間の専門家によって検証されました。結果は、最上位モデルが高い形式精度(5.00中4.26、審判としてGemini-2.5-Proを使用。以下同様)とテーマ整合(4.99)を達成した一方で、すべてのモデルが、人間の詩人が達成したのと同レベルの高度な能力には到達できなかったことを示しています。人間は比類のない創造性(4.02)、特異性(3.95)、感情的な共鳴(4.06)、巧みなイメージの使用(4.49)、文学的技巧(4.67)を達成しました。さらに、人間は、詩全体の質において最も良い成績を示したLLMを打ち負かしました(4.22対3.20)。以上より、詩の生成はLLMにとって依然として非常に難しい課題です。データとコードは https://github.com/Bingru-Li/POEMetric で公開されています。
POEMetric: 人類の最後の詩節
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文では、指示追従、創造性/言語の豊かさ、感情的な響き、そして作者推定を含む詩全体の鑑賞を対象とした、詩の品質を包括的に評価する枠組みである POEMetric を紹介する。
- 研究者らは、7つの固定形式にわたる203編の英語詩について、人手による参照データセットを構築し、韻律、韻のパターン、テーマを注釈付けしたうえで、同一の形式とテーマ条件のもとで、30のLLMによって6,090編の対応する詩を生成した。
- ルールベースの評価と、(人間の専門家によって検証された)LLM-as-a-judge を用いた結果、LLMは形式の正確さやテーマとの整合性については強い性能を示す一方で、高度な詩的能力では一貫して人間に劣ることが分かった。
- 人間の詩人と比較すると、最良のLLMは、創造性、独自性、感情的な共鳴、イメージや文学的デバイスを効果的に用いる力といった点で足りず、その結果、詩の総合品質スコアが低くなる。
- 著者らはデータセットとコードを公開し、POEMetric を、LLMが生成する詩が人間のパフォーマンスにどれだけ近いかを測るための実用的なベンチマークとして位置づけている。

