ネタバレ注意:LLMの物語ストーリーテリングにおける緊張感を測る指標としてのナラティブ予測

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、現在のLLM向け創造性ベンチマーク(EQ-Benchなど)が、魅力的な物語に不可欠な側面である「物語の緊張(ナラティブ・テンション)」という重要な次元を見落としており、審査員やルーブリックがAI生成の物語を、最高の人間によるフィクションよりも誤って高く評価してしまう可能性があると主張する。
  • 「100-Endings」指標を導入し、物語がどのように終わるかを文ごとに(各位置につき100回)予測することで、モデルの予測が真の継続と一致しない頻度として緊張を定義する。
  • 本手法は不一致率だけでなく、ねじれや発見を捉えるための屈折(インフレクション)率などの統計も含め、文単位の緊張感カーブを解析することで、より踏み込んで評価する。
  • 報告されている評価では、100-EndingsはゼロショットLLM出力よりもNew Yorkerの短編小説を高く順位づけし、さらにこの指標を用いて構造上の制約を備えたLLMによる物語生成パイプラインの設計に活用している。
  • 著者らは、制約付き生成パイプラインによって100-Endingsで測られる物語の緊張感が向上すると同時に、EQ-Benchリーダーボードでの強い性能を維持できると主張している。

要旨: LLMはこれまで、一貫して人を惹きつける物語を生成することにも、この失敗を認識することにも失敗してきました——主要な創作ベンチマーク(EQ-Bench)において、LLMの審査員はゼロショットのAI物語を、文芸小説のゴールドスタンダードであるNew Yorkerの短編小説よりも上位にランク付けしています。私たちは、既存の採点基準(ルーブリック)が、人間の魅力的な物語に不可欠な重要な次元である「物語の緊張(narrative tension)」を見落としていると主張します。私たちは100-Endingsメトリックを導入します。これは物語を1文ずつ辿りながら、各位置において、これまでのテキストのみを与えて物語がどのように終わるかを100回予測させ、その予測が真の内容(ground truth)と一致しない頻度として緊張度を測定します。単なる不一致率にとどまらず、文単位のカーブは、たとえば屈折率(inflection rate)のような補完的な統計も与えます。屈折率は、カーブがどれくらいの頻度で方向転換するかを幾何学的に捉える指標で、物語のひねりや発見(revelations)を追跡します。ルーブリックに基づく審査員とは異なり、100-EndingsはNew Yorkerの物語をLLM出力よりも大幅に正しく順位付けします。ナラトロジー(物語論)の原理に基づき、物語テンプレートの分析、アイデアの形成、物語の足場(narrative scaffolding)といった構造的制約を用いて、物語生成パイプラインを設計しました。私たちのパイプラインは、100-Endingsメトリックで測定される物語の緊張を大きく向上させつつ、EQ-Benchのリーダーボードでの性能を維持します。