理論に基づく評価がLLMのパーソナライズにおける「著者性のギャップ」を可視化する

arXiv cs.CL / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMによる文体のパーソナライズ(特定の個人の文体で書かせること)の評価が、著者性の科学に基づいていないことが多く、その結果が解釈しにくいと主張している。
  • 提案手法として、LUAR(著者性検証モデル)による理論に基づく評価を提示し、LLM-as-judge手法や古典的な機能語のスタイル指標など、2つの測定伝統と比較している。
  • 50人の著者と1,000生成を用いた実験では、LUARが人間の天井値と著者横断の下限といった校正済みのベースラインを与え、スコアに実質的な意味を持たせられることが示されている。
  • テストした4つの推論時パーソナライズ手法はいずれも校正済み下限を下回り、「著者性のギャップ」が未校正の指標では見えないことが明らかになった。
  • また、指標同士の相関がほぼゼロであることから、メトリクスの選び方だけで結論が変わり得る(LLMジャッジは勝者を示すがLUARは差を見出さない等)ことが示されている。

Abstract

スタイリスティックなパーソナライゼーション――タスクの嗜好に単に適応するのではなく、特定の個人の文体でLLMに書かせること――には、著者性科学に基づく評価が欠けている。著者性検証理論に基づいて評価を行うことが、ベンチマークに何を測らせられるかを変えることを示す。3つの計測伝統――LUAR(学習済みの著者性検証モデル);特性マッチングを分離したLLM-as-judge;古典的な機能語(function-word)スタイロメトリクス――に依拠し、50人の著者と1,000世代にわたって、推論時のパーソナライゼーション手法4種類を評価する。理論に基づく指標であるLUARは、恣意的な代替手法では得られないもの、すなわち較正されたベースラインを提供する。人間の上限は0.756、著者をまたいだ下限は0.626であり、これらによってスコアは絶対的な意味を持つ。すべての手法はこの下限を下回り、0.484から0.508の範囲に収まる。この結果は、較正されていない指標では見えない「著者性のギャップ」を明らかにする。3つの指標は、ペアごとの相関がほぼゼロで、絶対値のrが0.07未満となり、理論的な裏付けなしでは指標の選択が結論を左右することを確認する:あるLLM判定器は明確な勝者を宣言する一方で、LUARは意味のある差別化を見出さない。これらの知見は、理論とベンチマークのサイクルが実際に機能していることを示す。著者性理論は、恣意的なベンチマークでは見逃される評価上の失敗を露呈させる。