この行を書いたのは誰？LLM生成の古典漢詩の検出を評価する

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、古典漢詩におけるLLM生成詩の検出の難しさ（韻律の厳密さ、共通の詩的イメージ体系、柔軟な構文）を指摘し、既存研究のギャップを示している。
古典漢詩に特化した検出ベンチマーク「ChangAn」を導入し、全30,664詩（人手10,276、4種のLLM生成20,388）で構成される評価用データセットを提供する。
ChangAnを用いて12のAI検出器を体系的に評価し、テキストの粒度や生成戦略の違いによる性能のばらつきを調べた。
結果として、現行の中国語テキスト検出器は古典漢詩のLLM生成検出において信頼できるツールになっていないことが明らかになり、ChangAnの有効性と必要性を裏付けた。

要旨: 大規模言語モデル（LLM）の急速な発展により、テキスト生成のタスクが文学領域へと拡張されました。しかし、AIが生成した文学作品は、創造的な真正性と倫理の問題を文学界でますます顕著にし、LLMによって生成された文学テキストを検出することは不可欠かつ緊急の課題となっています。先行研究ではAI生成テキストの検出において大きな進展がなされてきたものの、いまだ古典漢詩には対応できていません。古典漢詩には、厳格な韻律の規則性、詩的イメージの共有システム、柔軟な構文といった独自の言語的特徴があるため、詩がAIによって書かれたものかどうかを区別することは、実質的に大きな挑戦です。これらの課題に対処するため、我々は、合計30,664首の詩を含む、LLMによって生成された古典漢詩を検出するためのベンチマークであるChangAnを導入します。そのうち10,276首は人間が書いた詩であり、20,388首は4つの人気LLMによって生成された詩です。ChangAnに基づいて、12のAI検出器を体系的に評価し、異なるテキストの粒度と生成戦略のもとでそれらの性能がどのように変動するかを調査しました。これらの結果は、現在の中国語テキスト検出器の限界を浮き彫りにし、LLMによって生成された古典漢詩を検出するための信頼できるツールとして機能していないことを示しています。これらの結果は、提案するChangAnベンチマークの有効性と必要性を裏付けます。データセットとコードは https://github.com/VelikayaScarlet/ChangAn で公開しています。