解釈可能性と予測可能性に基づくAIテキスト検出の再現研究
arXiv cs.CL / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機械生成テキストの著者推定のための AuTexTification 2023 システムの再現と拡張であり、データ分割、モデルの入手可能性、実装の詳細によって正確な再現が妨げられていたことに注目している。
- 本研究は26個の文書レベルのスタイロメトリック特徴を追加し、より新しい多言語言語モデルを用いた実験を行い、決定に対する特徴量の影響を理解するために SHAP を適用している。
- 本研究は、確率的特徴量のために GPT-2 を Qwen や mGPT などの新しい生成モデルに置き換え、英語とスペイン語の文脈表現には mDeBERTa-v3-base を使用している。
- 多言語構成は言語特有モデルと同等またはそれ以上の結果を達成しており、サブタスク1およびサブタスク2の両方でこれが当てはまる。
- 著者らは、信頼性の高い再現と公正な比較のためには明確な文書化が不可欠であると強調している。


