要旨: 本論文では、LLMによる著者推定(authorship attribution)のためのデータセットであるGhostWriteBenchを紹介する。GhostWriteBenchは、最先端のLLMによって生成された長文テキスト(書籍あたり50K+語)で構成されており、ドメインや未見のLLM著者など、複数の分布外(OOD)次元にわたる汎化性能を検証することを目的としている。さらに、解釈可能で軽量な新しいフィンガープリンティング手法であるTRACEも提案する。TRACEはオープンソースモデルおよびクローズドソースモデルの両方で動作する。TRACEは、別の軽量言語モデルによって推定されたトークンレベルの遷移パターン(例:単語順位)を捉えることでフィンガープリントを作成する。GhostWriteBenchに関する実験により、TRACEが最先端の性能を達成し、OOD設定において頑健であり、学習データが限られた状況でも良好に機能することが示される。
誰が本を書いたのか?LLMのゴーストライターを検出・帰属する
arXiv cs.CL / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ゴーストライターの著者帰属(authorship attribution)を評価するための新しいデータセット GhostWriteBench を提案する。フロンティアモデルが生成した書籍級の長文(50K語以上)を用い、複数のOOD(out-of-distribution)次元にまたがる汎化性能を評価する。
- さらに、TRACE を提案する。これは、別の軽量言語モデルを用いて、語の順位変化(word-rank changes)などのトークンレベルの遷移パターンを推定する、解釈可能で軽量なフィンガープリンティング手法である。
- TRACE は、オープンソース/クローズドソースの両方のLLMで動作するよう設計されており、現実の帰属でモデルアクセスが制限され得るという重要な課題に対処する。
- GhostWriteBench に基づく実験では、TRACE が最先端の結果をもたらすこと、OOD条件下でも頑健性を維持すること、さらに限られた学習データでも有効に機能することが示されている。



