BERT埋め込みは物語の次元をエンコードするのか?時間・空間・因果・人物を対象としたトークンレベルのプロービング分析
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、LLMによるアノテーション支援を用いたトークンレベルのプロービング設定により、BERTトークン埋め込みがフィクションの物語意味論(時間・空間・因果・人物)をエンコードしているかどうかを検証する。
- BERT埋め込みに対する線形プローブは、(クラスの重み付けを調整したバランス設定において)94%の精度と0.83のマクロ平均再現率を達成し、分散を一致させたランダム埋め込みのベースライン(47%)を上回る。
- より希少な物語の次元では性能が低下し、特に空間(再現率 = 0.66)と因果(再現率 = 0.75)で顕著であり、次元間で表現の強さが不均一であることが示される。
- 分析では、「Boundary Leakage(境界の漏れ)」が見られ、希少な次元がしばしば「その他」と誤分類される。また、教師なしクラスタリングは事前定義されたカテゴリとの一致がほぼランダムであることが示され(ARI = 0.081)、次元が明確に離散的に分離できないことを示唆する。
- 著者らは、今後の課題として、POSのみのベースライン、データセットの拡張、そして層ごとのプロービングによって文法的効果と物語エンコーディングを分離することなどを提案している。



