DSIPA:感情(センチメント)が不変なパターンのダイバージェンス分析によるLLM生成テキストの検出

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、スタイルを意図的に変化させた際の感情(センチメント)パターンの変化を分析することで、LLM生成テキストを検出する学習不要・ゼロショットの枠組みDSIPAを提案する。
  • DSIPAは、敵対的な撹乱、言い換え攻撃、ドメインシフトに対する頑健性を狙い、モデルのパラメータアクセスや大規模なラベル付きデータといった従来の前提を回避する設計になっている。
  • ブラックボックス環境で動作し、感情分布の一貫性(sentiment distribution consistency)と感情分布の保存(sentiment distribution preservation)の2つの教師なし指標を用いて、感情が比較的安定しやすいLLM出力と、人間文のより感情的な多様性の違いを捉える。
  • GPT-5.2、Gemini-1.5-pro、Claude-3、LLaMa-3.3など複数の最先端モデルと、ニュース記事・プログラミングコード・学生のエッセイ・学術論文・コミュニティコメントの5ドメインで評価し、ベースライン手法に対してF1が最大49.89%改善したと報告している。
  • 著者らは、ドメインをまたいだ汎化性能や敵対条件への強い耐性を示し、解釈可能な行動(振る舞い)シグナルとして、LLM時代の安全なコンテンツ識別に寄与しうると述べている。

Abstract

大規模言語モデル(LLM)の急速な進歩は、新たなセキュリティ上の課題、特に、誤情報、なりすまし、およびコンテンツ改ざんに用いられる機械生成テキストを検出することに関する課題をもたらしています。既存の多くの検出アプローチは、敵対的擾乱、パラフレーズ攻撃、ドメインシフトに対する頑健性の面で苦戦していることが多く、モデルパラメータへの制限のあるアクセスや、大規模なラベル付きデータセットを必要とする場合がしばしばあります。これに対処するため、我々は、制御されたスタイル変化のもとで感情の分布の安定性を定量化することで、LLM生成コンテンツを検出する新しい学習不要フレームワークDSIPAを提案します。これは、LLMは通常、感情的により一貫した出力を示す一方で、人間が書いた文章は感情面での変動がより大きいという観察に基づいています。我々のフレームワークはゼロショットかつブラックボックスの方式で動作し、2つの教師なし指標、すなわち感情分布の一貫性と感情分布の保存性を用いて、パラメータ更新や確率へのアクセスを必要とせずに、これらの本質的な行動上の非対称性を捉えます。広範な実験を、GPT-5.2、Gemini-1.5-pro、Claude-3、LLaMa-3.3を含む、最先端のプロプライエタリおよびオープンソースモデルに対して実施しています。ニュース記事、プログラミングコード、学生のエッセイ、学術論文、コミュニティコメントといった5つのドメインにおける評価により、DSIPAは基準手法に比べて検出F1スコアを最大49.89%改善することが示されています。このフレームワークはドメイン間で優れた汎化性を示し、敵対的条件に対しても強い耐性を備えており、進化し続けるLLM環境におけるセキュアなコンテンツ同定のための、堅牢で解釈可能な行動シグナルを提供します。