理論に基づく評価がLLMのパーソナライズにおける「著者性のギャップ」を可視化する
arXiv cs.CL / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMによる文体のパーソナライズ(特定の個人の文体で書かせること)の評価が、著者性の科学に基づいていないことが多く、その結果が解釈しにくいと主張している。
- 提案手法として、LUAR(著者性検証モデル)による理論に基づく評価を提示し、LLM-as-judge手法や古典的な機能語のスタイル指標など、2つの測定伝統と比較している。
- 50人の著者と1,000生成を用いた実験では、LUARが人間の天井値と著者横断の下限といった校正済みのベースラインを与え、スコアに実質的な意味を持たせられることが示されている。
- テストした4つの推論時パーソナライズ手法はいずれも校正済み下限を下回り、「著者性のギャップ」が未校正の指標では見えないことが明らかになった。
- また、指標同士の相関がほぼゼロであることから、メトリクスの選び方だけで結論が変わり得る(LLMジャッジは勝者を示すがLUARは差を見出さない等)ことが示されている。




