生成AI時代における汎用的な著者帰属のための説明可能な分離表現学習

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、著者帰属およびAI生成文検出における重要な制約として、書き手の「スタイル」と「内容」が絡み合い(entanglement)、領域をまたぐ一般化性能が低下する問題を扱います。
  • EAVAE(Explainable Authorship Variational Autoencoder)を提案し、分離-by-designのアーキテクチャによりスタイルと内容を明示的に切り離し、それぞれ専用のエンコーダで表現を学習します。
  • EAVAEは多様な著者データでスタイルエンコーダを教師ありコントラスト学習で事前学習した後、変分オートエンコーダ構成で微調整し、分離された潜在表現を獲得します。
  • 新しい識別器は、スタイル/内容表現が同一か別ソース由来かを判定するだけでなく、判断理由を自然言語で生成することで、混同行為を抑えつつ解釈可能性を高めることを狙います。
  • 実験ではAmazon Reviews、PAN21、HRSでの著者帰属が複数データセットで最先端の性能を示し、さらにM4データセットでAI生成文検出のfew-shot性能も良好でした。コードとデータはオンラインで公開されています。

要旨: 著者の文体に頑健な表現を学習することは、著者推定やAI生成テキストの検出にとって重要です。しかし、既存の手法はしばしば、コンテンツと文体の絡み合い(content-style entanglement)に悩まされています。これは、モデルが著者の文体とトピックの間に存在しない相関(見かけの相関)を学習してしまい、その結果、ドメインをまたいだ汎化性能が低下する現象です。 この課題に対処するために、本研究では、設計によって分離を明示的に行うアーキテクチャ分離-by-design により、文体とコンテンツを明確に分離する新しい枠組み、Explainable Authorship Variational Autoencoder(EAVAE)を提案します。EAVAEはまず、多様な著者データに対する教師ありコントラスティブ学習によって文体エンコーダを事前学習し、その後、文体表現とコンテンツ表現のための別々のエンコーダを用いる Variational Autoencoder(VEA)アーキテクチャで微調整します。分離は、新しい識別器によって強制されます。この識別器は、文体/コンテンツ表現のペアが同一か別か(同じ/異なる著者・コンテンツソースに由来するか)を区別するだけでなく、その判断に対する自然言語による説明も生成します。これにより、紛らわしい情報の影響を同時に軽減し、解釈可能性を高めます。大規模な実験により、EAVAEの有効性が示されています。著者推定においては、Amazon Reviews、PAN21、HRS などのさまざまなデータセット上で、最先端の性能を達成します。AI生成テキスト検出においては、EAVAEはM4データセットに対して少数ショット学習で優れた性能を示します。コードとデータのリポジトリはオンラインで公開されています\footnote{https://github.com/hieum98/avae} \footnote{https://huggingface.co/collections/Hieuman/document-level-authorship-datasets}。