要旨: 一様情報密度(UID)仮説を検討した先行研究では、サプライズ(surprisal)指標によって測られる情報は文書全体としては概ね均等に分配される一方で、統語的および談話構造上の制約に対応する機能的な圧力によって、局所的な不一致が生じ得ることが示されている。 しかし、これまでの研究では主として、談話の参加者(discourse participants)の相対的な顕著性(salience)を軽視してきた。 我々は、英語16のジャンルにまたがる70K件の手動アノテーション付き言及(mentions)と、新規の最小対提示(minimal-pair prompting)手法を用いて、談話における実体(entities)の全体的な顕著性がサプライズとどのように関係するかを調査することで、この空白を埋める。 その結果、位置、長さ、ネストに関する交絡を制御した場合でも、グローバルに顕著な実体は非顕著な実体よりも有意に高いサプライズを示すことが分かった。 さらに、これらの顕著な実体をプロンプトとして用いると、周辺の内容のサプライズが系統的に低下し、文書レベルでの予測可能性が高まる。 この効果はジャンルによって変動し、トピックの整合性が高いテキストで最も強く、会話的な文脈では最も弱い。 本研究の知見は、談話における情報分布を形作る機構として、グローバルな実体顕著性を特定することで、UIDの競合する圧力(competing pressures)フレームワークを洗練するものである。
予期せぬ展開に備える?顕著な対象のサプライズを検証する
arXiv cs.CL / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、談話における対象(エンティティ)の顕著性がサプライズ(驚き)にどのように影響するかを調査し、従来のUID(Uniform Information Density:一様情報密度)研究が主として参加者の顕著性を無視していたことによるギャップに取り組んでいる。
- 16の英語ジャンルにまたがる7万件の手作業でアノテーションされた言及と、新規のミニマルペア・プロンプト手法を用いた結果、位置や長さといった交絡要因を制御した後でも、グローバルに顕著な対象は非顕著な対象よりもサプライズが有意に高いことがわかった。
- また、顕著な対象をプロンプトとして使用すると、周辺の内容のサプライズが体系的に低下し、文書全体の予測可能性が高まることを報告している。
- このプロンプトによる予測可能性の効果の大きさはジャンルによって変動し、トピックが一貫したテキストで最も強く、会話的な文脈では最も弱い。
- 全体として、本研究は「UIDの相反する圧力(competing pressures)」の枠組みを洗練し、情報分布を談話全体で形作るメカニズムとして、グローバルな対象の顕著性を提案している。




