POEMetric: 人類の最後の詩節

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、指示追従、創造性／言語の豊かさ、感情的な響き、そして作者推定を含む詩全体の鑑賞を対象とした、詩の品質を包括的に評価する枠組みである POEMetric を紹介する。
研究者らは、7つの固定形式にわたる203編の英語詩について、人手による参照データセットを構築し、韻律、韻のパターン、テーマを注釈付けしたうえで、同一の形式とテーマ条件のもとで、30のLLMによって6,090編の対応する詩を生成した。
ルールベースの評価と、（人間の専門家によって検証された）LLM-as-a-judge を用いた結果、LLMは形式の正確さやテーマとの整合性については強い性能を示す一方で、高度な詩的能力では一貫して人間に劣ることが分かった。
人間の詩人と比較すると、最良のLLMは、創造性、独自性、感情的な共鳴、イメージや文学的デバイスを効果的に用いる力といった点で足りず、その結果、詩の総合品質スコアが低くなる。
著者らはデータセットとコードを公開し、POEMetric を、LLMが生成する詩が人間のパフォーマンスにどれだけ近いかを測るための実用的なベンチマークとして位置づけている。

要旨: 大規模言語モデル（LLM）は詩を作ることができますが、人間の詩人からどれくらい離れているのでしょうか。本論文では、詩の評価のための最初の包括的な枠組みであるPOEMetricを導入し、1）特定の形式とテーマに従って詩を生成する際の基礎的な指示追従能力、2）創造性、語彙の多様性、特異性を示すといった高度な能力、感情的な共鳴を喚起すること、そしてイメージや文学的な技巧を用いること、3）詩全体の質に対する一般的な評定と、著者性の推定を検討します。私たちは、人間の詩データセットを厳選しました――韻律（メーター）、韻パターン、テーマで注釈が付けられた7つの固定形式の英語詩203編――そして、人間データと同じ形式とテーマに基づく詩生成のために、30のLLMを用いた実験を行い、合計6,090編のLLM詩を作成しました。POEMetricに基づき、ルールベースの評価とLLMを「審判（judge）」として用いる手法の両方によって、人間の詩人とLLMの双方の性能を評価し、その結果は人間の専門家によって検証されました。結果は、最上位モデルが高い形式精度（5.00中4.26、審判としてGemini-2.5-Proを使用。以下同様）とテーマ整合（4.99）を達成した一方で、すべてのモデルが、人間の詩人が達成したのと同レベルの高度な能力には到達できなかったことを示しています。人間は比類のない創造性（4.02）、特異性（3.95）、感情的な共鳴（4.06）、巧みなイメージの使用（4.49）、文学的技巧（4.67）を達成しました。さらに、人間は、詩全体の質において最も良い成績を示したLLMを打ち負かしました（4.22対3.20）。以上より、詩の生成はLLMにとって依然として非常に難しい課題です。データとコードは https://github.com/Bingru-Li/POEMetric で公開されています。

Black Hat USA

AI Business

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

POEMetric: 人類の最後の詩節

要点

関連記事

Black Hat USA

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ