ナラティブ・フィンガープリンツ：新規性カーブのダイナミクスによるマルチスケール著者同定

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、情報理論的な「新規性カーブ」の測定可能なパターンから、個々の著者を特定できるかどうかを検討する。
Books3 と PG-19 を用いて、マルチスケールの著者シグナルを報告する。すなわち、書籍レベルのスカラーな新規性ダイナミクスは、偶然を超えて 43% の著者を同定できる一方で、スライディングウィンドウに基づく章レベルの SAX モチーフ・パターンでは、はるかに強い帰属（attribution）が得られる。
研究では、書籍レベルと章レベルのシグナルは冗長というより補完的であり、テキスト構造の異なる階層が、著者に固有な情報をそれぞれ異なる形で持つことを示唆している。
帰属シグナルはジャンルによって部分的に混同されるが、ジャンル内でも約 4 分の 1 の著者についてはなお検出可能であることを示す。
本効果が単なる現代的なフォーマットのアーティファクトではないことを、トウェイン、オースティン、キプリングのような著者で同等のフィンガープリント強度が観測される点から論じている。

Abstract

我々は、著者が出版された著作の情報理論的な新規性曲線において特徴的な「指紋」を持つかどうかを検証する。2つのコーパス――Books3（52,796冊、条件を満たす著者759名）およびPG-19（28,439冊、条件を満たす著者1,821名）――を用いて、著者固有の文体（ボイス）が、テキスト全体にわたって新規性がどのように展開するかにおいて測定可能な痕跡を残すことを見出す。信号はマルチスケールである。すなわち、書籍レベルでは、スカラー動力学（平均新規性、速度、分量、迂回度）が、偶然を超えて有意に43%の著者を識別する。一方、章レベルでは、スライディングウィンドウにおけるSAXモチーフのパターンが、チャンスを30倍以上上回る帰属（attribution）を達成し、書籍レベルで支配的なスカラー特徴を大きく上回る。これらの信号は相補的であり、冗長ではない。指紋は部分的にジャンルと混同されるが、約4分の1の著者についてはジャンル内でも持続することを示す。古典作家（Twain、Austen、Kipling）は、現代作家と同程度の強さで指紋を示しており、この現象が現代の出版慣行による見かけの産物ではないことを示唆する。