AI生成テキスト検出が失敗する理由:ベンチマーク精度を超えた説明可能AIによる証拠
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、AI生成テキスト検出器におけるベンチマークでの高精度が、現実の条件における真の「機械による作成」の識別を必ずしも反映していない可能性を主張している。
- 言語的特徴量の設計、機械学習、説明可能AIを組み合わせた解釈可能な検出フレームワークを提示し、PAN CLEF 2025 および COLING 2025 でリーダーボード競争力のある結果(F1=0.9734)を達成している。
- ドメインをまたいだテストや生成器をまたいだテストでは、分布シフト下で顕著な汎化失敗が見られ、学習ドメインを越えると検出器の性能が低下することが示される。
- SHAP に基づく説明から、最も影響力のある特徴はデータセットごとに大きく異なることが示され、機械作成者であることの安定したシグナルではなく、データセット固有のアーティファクトに依存していることが示唆される。
- 著者らは、再現性の向上およびより頑健な検出器開発を支援するため、インスタンス単位の説明とともに予測を出力するオープンソースのPythonパッケージを公開している。