生成AI時代における汎用的な著者帰属のための説明可能な分離表現学習

arXiv cs.CL / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、著者帰属およびAI生成文検出における重要な制約として、書き手の「スタイル」と「内容」が絡み合い（entanglement）、領域をまたぐ一般化性能が低下する問題を扱います。
EAVAE（Explainable Authorship Variational Autoencoder）を提案し、分離-by-designのアーキテクチャによりスタイルと内容を明示的に切り離し、それぞれ専用のエンコーダで表現を学習します。
EAVAEは多様な著者データでスタイルエンコーダを教師ありコントラスト学習で事前学習した後、変分オートエンコーダ構成で微調整し、分離された潜在表現を獲得します。
新しい識別器は、スタイル／内容表現が同一か別ソース由来かを判定するだけでなく、判断理由を自然言語で生成することで、混同行為を抑えつつ解釈可能性を高めることを狙います。
実験ではAmazon Reviews、PAN21、HRSでの著者帰属が複数データセットで最先端の性能を示し、さらにM4データセットでAI生成文検出のfew-shot性能も良好でした。コードとデータはオンラインで公開されています。

要旨: 著者の文体に頑健な表現を学習することは、著者推定やAI生成テキストの検出にとって重要です。しかし、既存の手法はしばしば、コンテンツと文体の絡み合い（content-style entanglement）に悩まされています。これは、モデルが著者の文体とトピックの間に存在しない相関（見かけの相関）を学習してしまい、その結果、ドメインをまたいだ汎化性能が低下する現象です。この課題に対処するために、本研究では、設計によって分離を明示的に行うアーキテクチャ分離-by-design により、文体とコンテンツを明確に分離する新しい枠組み、Explainable Authorship Variational Autoencoder（EAVAE）を提案します。EAVAEはまず、多様な著者データに対する教師ありコントラスティブ学習によって文体エンコーダを事前学習し、その後、文体表現とコンテンツ表現のための別々のエンコーダを用いる Variational Autoencoder（VEA）アーキテクチャで微調整します。分離は、新しい識別器によって強制されます。この識別器は、文体／コンテンツ表現のペアが同一か別か（同じ／異なる著者・コンテンツソースに由来するか）を区別するだけでなく、その判断に対する自然言語による説明も生成します。これにより、紛らわしい情報の影響を同時に軽減し、解釈可能性を高めます。大規模な実験により、EAVAEの有効性が示されています。著者推定においては、Amazon Reviews、PAN21、HRS などのさまざまなデータセット上で、最先端の性能を達成します。AI生成テキスト検出においては、EAVAEはM4データセットに対して少数ショット学習で優れた性能を示します。コードとデータのリポジトリはオンラインで公開されています\footnote{https://github.com/hieum98/avae} \footnote{https://huggingface.co/collections/Hieuman/document-level-authorship-datasets}。

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

Dev.to

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

Dev.to

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

生成AI時代における汎用的な著者帰属のための説明可能な分離表現学習

要点

関連記事

第67回の挑戦：知識管理システムが「卓越の自己成就予言」になってしまうとき

開発者のためのコンテキスト・エンジニアリング：実践ガイド（2026）

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer