AI Navigate

解釈可能性と予測可能性に基づくAIテキスト検出の再現研究

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、機械生成テキストの著者推定のための AuTexTification 2023 システムの再現と拡張であり、データ分割、モデルの入手可能性、実装の詳細によって正確な再現が妨げられていたことに注目している。
  • 本研究は26個の文書レベルのスタイロメトリック特徴を追加し、より新しい多言語言語モデルを用いた実験を行い、決定に対する特徴量の影響を理解するために SHAP を適用している。
  • 本研究は、確率的特徴量のために GPT-2 を Qwen や mGPT などの新しい生成モデルに置き換え、英語とスペイン語の文脈表現には mDeBERTa-v3-base を使用している。
  • 多言語構成は言語特有モデルと同等またはそれ以上の結果を達成しており、サブタスク1およびサブタスク2の両方でこれが当てはまる。
  • 著者らは、信頼性の高い再現と公正な比較のためには明確な文書化が不可欠であると強調している。

Abstract

本論文は、機械生成テキストの著者推定のために AuTexTification 2023 の共有タスクで用いられたシステムを再現・拡張します。まず、元の結果を再現しようとしました。データ分割、モデルの入手可能性、実装の詳細の違いにより、正確な再現は不可能でした。次に、より新しい多言語対応の言語モデルを試し、26 個の文書レベルのスタイロメトリック特徴を追加しました。さらに、SHAP 分析を適用して、どの特徴がモデルの判断に影響を与えるかを検討しました。元の GPT-2 モデルを、確率的特徴を計算するための Qwen や mGPT のような新しい生成モデルに置き換えました。文脈表現には mDeBERTa-v3-base を用い、英語とスペイン語の両方に同じ設定を適用しました。これにより、サブタスク1とサブタスク2で共通の設定を1つ使用できるようになりました。我々の実験は、追加のスタイロメトリック特徴が両方のタスクと両方の言語で性能を改善することを示しています。多言語設定は、言語特有のモデルと同等、またはそれよりも良い結果を達成します。さらに、明確なドキュメンテーションが、信頼性のある再現と公正な比較のために重要であることを示しています。