Exons-Detect：隠れ状態の不一致を通じてエキソン（exonic）トークンを同定・増幅し、頑健なAI生成テキスト検出を実現

arXiv cs.CL / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Exons-Detect は、AI生成文の検出を「エキソン（exonic）に相当する情報トークンを見つけて増幅する」という発想で行う、学習不要（training-free）の検出手法として提案された。
具体的には dual-model 設定で hidden-state の不一致（hidden-state discrepancy）を測り、重要度に基づいてトークンを再重み付けし、その結果を解釈可能なスコア（translation score）へ集約する。
従来の学習不要手法が「全トークンが一様に効く」前提に弱いのに対し、局所的な変更や短文でも頑健に動作することを目指している。
実験では、DetectRL において最強の既存ベースライン比で平均 AUROC が相対 2.2% 改善し、さらに敵対的攻撃や入力長の変化への耐性も示した。

要旨: 大規模言語モデルの急速な進歩により、人が書いた文章とAIが生成した文章の境界がますます曖昧になってきています。これにより、誤情報の拡散、著者性の曖昧化、知的財産権への脅威といった社会的リスクが高まっています。これらの懸念は、効果的で信頼性の高い検出手法が緊急に必要であることを浮き彫りにしています。既存の学習不要アプローチは、トークンレベルの信号をグローバルスコアに集約することで高い性能を達成することが多い一方で、通常はトークンの寄与が一様であることを前提としているため、短い系列や局所的なトークンの改変に対して頑健性が低くなりがちです。これらの制約に対処するために、本研究ではエクソンに着目したトークン再重み付けという観点に基づく、学習不要のAI生成テキスト検出手法である Exons-Detect を提案します。Exons-Detect は、デュアルモデルの設定下で隠れ状態の不一致を測定することで、情報量のあるエクソン由来トークンを特定し、それらを増幅します。そして、その結果得られた重要度で重み付けされたトークン系列から、解釈可能な翻訳スコアを算出します。実験的評価により、Exons-Detect が最先端の検出性能を達成し、敵対的攻撃や入力長の変動に対して強い頑健性を示すことが確認されました。とりわけ、DetectRL において、最強の従来ベースラインに比べ平均 AUROC が相対的に 2.2\% 改善します。