DSIPA:感情(センチメント)が不変なパターンのダイバージェンス分析によるLLM生成テキストの検出
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、スタイルを意図的に変化させた際の感情(センチメント)パターンの変化を分析することで、LLM生成テキストを検出する学習不要・ゼロショットの枠組みDSIPAを提案する。
- DSIPAは、敵対的な撹乱、言い換え攻撃、ドメインシフトに対する頑健性を狙い、モデルのパラメータアクセスや大規模なラベル付きデータといった従来の前提を回避する設計になっている。
- ブラックボックス環境で動作し、感情分布の一貫性(sentiment distribution consistency)と感情分布の保存(sentiment distribution preservation)の2つの教師なし指標を用いて、感情が比較的安定しやすいLLM出力と、人間文のより感情的な多様性の違いを捉える。
- GPT-5.2、Gemini-1.5-pro、Claude-3、LLaMa-3.3など複数の最先端モデルと、ニュース記事・プログラミングコード・学生のエッセイ・学術論文・コミュニティコメントの5ドメインで評価し、ベースライン手法に対してF1が最大49.89%改善したと報告している。
- 著者らは、ドメインをまたいだ汎化性能や敵対条件への強い耐性を示し、解釈可能な行動(振る舞い)シグナルとして、LLM時代の安全なコンテンツ識別に寄与しうると述べている。




