要旨: 大規模言語モデル(LLM)が生成するテキストは、人間の文章にますます近づく一方で、AI生成コンテンツと人間が書いたコンテンツを区別する微妙な手がかりを捉えることは、ますます困難になっています。ジェネレーター固有のアーティファクトへの依存は、本質的に不安定です。なぜなら、新しいモデルが急速に登場し、そのような近道の頑健性を低下させるからです。これは、未知のジェネレーターを一般化して扱うことを、AIテキスト検出における中心的かつ困難な問題として位置づけます。この課題に対処するために、我々は、AI検出の意味論からジェネレーターに依存したアーティファクトを段階的に切り離す、漸進的に構造化された枠組みを提案します。これは、意味の最小性を促すコンパクトな潜在エンコーディングにより実現され、その後、残存する絡み合いを低減するための摂動ベースの正則化を行い、最後に、タスク目標に表現を整合させる識別的な適応段階を設けることで達成されます。MAGEベンチマークにおける実験では、7つのカテゴリにまたがる20の代表的なLLMを対象としており、最先端手法に対して一貫した改善が示されます。最大で精度が24.2%向上し、F1が26.2%改善します。特筆すべきは、学習ジェネレーターの多様性が増すにつれて性能が引き続き向上することであり、オープンセットのシナリオにおける強いスケーラビリティと一般化能力が確認されます。ソースコードは https://github.com/PuXiao06/DRGD で公開します。
生成器バリアを打ち破る:汎用的なAIテキスト検出のためのディスエンタングル表現
arXiv cs.CL / 2026/4/16
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、新たなLLMが登場するにつれて生成器固有のアーティファクトが信頼性を失い、AI生成テキストの検出がますます難しくなっている問題に取り組む。
- 提案手法は、コンパクトな潜在表現、摂動ベースの正則化、弁別的な適応段階を用いて、生成器に依存するアーティファクトとAI検出に関するセマンティクスを分離するディスエンタングル型の検出フレームワークを提示する。
- MAGEベンチマークでの実験(7カテゴリにわたる20 LLM)により、最先端手法に対して一貫した改善が示され、最大で精度24.2%、F1スコア26.2%の向上が得られた。
- 本手法はオープンセット設定においてスケーラブルであり、学習に用いる生成器の多様性が増えるにつれて性能が継続的に向上する。
- 著者らは、再現性の支援とさらなる研究のために、ソースコードを公開する予定である。




