Berkeley、UCSD、UW、そしてGoogle DeepMindの研究者らは3つのデータセットを調査しました。すなわち、100人を対象とした統制されたユーザー研究、LLM以前の人間が書いた86本のエッセイ(2021年に収集され、GPT-5-mini、Gemini 2.5 Flash、Claude Haikuによって改稿されたもの)、およびICLR 2026のピアレビュー18,000件です。
最も明確な発見はこれです。埋め込み空間で対応づけると、LLMによって改稿されたエッセイは、人間が書いたどのエッセイとも占有されていない領域に、きわめて密にクラスター化します。人間のエッセイは広く分散しています。LLMは、改稿の指示が何であれ(たとえ"文法だけ直す"であっても)すべてのエッセイを同じ方向へ押し出します。各書き手の固有の語彙的な指紋は、LLMの好む語彙によって上書きされます。
立場の変化は測定可能です。LLM支援を与えられたユーザーは、より有意に中立的なエッセイを書き、断定的な立場を避けました。LLMは名詞と形容詞を増やし、代名詞を減らしました――よりフォーマルで統計的、より個人的ではない。個人的な経験に基づく主張は、統計的、そして専門家の引用に基づく主張へと置き換えられました。
ICLR 2026の発見は、最も鋭い制度的なデータ点です。ピアレビューの21%がAIによって生成されました。AIレビュアーは論文に対して10%高いスコアを付け、再現性を強調する可能性が136%高く、スケーラビリティを強調する可能性が84%高かったのです。人間は、明確さについてそれが強みでもあり弱みでもあるとコメントする可能性がより高かった。ピアレビューで報われている基準は、すでに変化しつつあります。
ユーザー研究における逆説:LLMを多用する人ほど、自分の声の喪失を認識していたのに、満足度は同等だと報告しました。効率化の利益は即時に得られますが、文化的なコストは広く薄まっています。
LLMの改稿が、あなたが実際に言いたかったことから一貫して引き離していると感じた文章作成タスクはありますか?
[link] [comments]




