LLMプロンプトによる著者なりすましは、著者性検証手法を回避できない

arXiv cs.CL / 2026/4/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、プロンプトベースのLLM（GPT-4oを使用）が説得力のある著者なりすましを生成できるか、またそれらのテキストが既存の著者性検証（AV）システムを回避できるかを検証する。
なりすましの試みは、3つのジャンル（電子メール、SMS、ソーシャルメディア投稿）にまたがる4つのプロンプト条件のもとで生成された。
尤度比（likelihood-ratio）フレームワークを用いて、複数の非ニューラルおよびニューラル系のAV手法に対して評価した結果、LLM出力は確立されたシステムを突破するほど個々の著者の文体的特徴（署名）を十分に再現できていなかった。
一部のAV手法は、LLMによるなりすましテキストを、真のネガティブサンプルよりも正確に拒否できており、AVシステムがなりすましを効果的に見分けられることを示唆している。
論文では、この耐性は部分的に、語彙の多様性やLLM生成テキストにおけるより高いエントロピーによってなりすましの模倣が弱まるためだと説明している。

要旨: 著者性検証（AV）――問題となっている文章が特定の個人によって書かれたものかを判断する課題――は、法言語学において重要な構成要素である。加害者による手作業の著者なりすましは、歴史的な法言語学の事例において長い間、既知の脅威として認識されてきた。一方で、大規模言語モデル（LLM）の最近の進歩により、新たな課題が生じている。すなわち、敵対者がこれらのツールを悪用して他者の文章をなりすます可能性がある。本研究では、指示（プロンプト）付きのLLMが説得力のある著者なりすましを生成できるのか、そしてそのような出力が既存の法言語学的なAVシステムを回避できるのかを調査した。敵対モデルとしてGPT-4oを用い、4つのプロンプト条件の下で、3つのジャンル――電子メール、テキストメッセージ、ソーシャルメディア投稿――にわたってなりすまし文を生成した。その後、これらの出力を、尤度比（likelihood-ratio）枠組みのもとで、非ニューラル手法（n-gramトレーシング、Ranking-Based Impostors Method、LambdaG）とニューラル手法（AdHominem、LUAR、STAR）の両方に対して評価した。結果として、LLMが生成した文章は、確立されたAVシステムを回避するのに十分な形で、著者としての個別性を再現できていないことが示された。また、一部の手法では、なりすまし文を拒否する際に、真の負例サンプルと比べて、より高い精度が達成されることも観察された。全体として、これらの知見は、LLMが利用可能であるにもかかわらず、現在のAVシステムは複数のジャンルにまたがる初級レベルのなりすまし試みに対して頑健であり続けていることを示している。さらに、この直感に反するような頑健性は、少なくとも一部には、LLMが生成した文章に内在する語彙的多様性とエントロピーの高さに起因することを示す。