セマンティック・シフト:テキスト埋め込みと検索における根本的な課題
arXiv cs.CL / 2026/3/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、Transformerベースのテキスト埋め込みで起きる幾何学的な病理(異方性や長さによる埋め込み崩壊)について、従来の「見え方(見通し)」の説明に加えて、「いつ・なぜ」検索精度へ悪影響を与えるかの因果要因として「セマンティック・シフト(semantic shift)」を提案している。
- semantic smoothingの理論分析により、文の集合内で意味の多様性が増えるほど、プール後表現は各文の埋め込みから外れて「平滑化され、識別力が下がる」ことを示している。
- semantic shiftを、局所的な意味の変化と大域的な意味の分散を統合する「計算可能な指標」として定式化し、複数の埋め込みモデルとコーパスでの制御実験により、semantic shiftが埋め込みの集中度合いと強く整合し、検索劣化を予測することを報告している。
- テキスト長だけでは劣化を説明しきれない一方で、semantic shiftを用いることでanisotropyが「有害になる条件」を診断できる、統一的で実用的な観点を提供するとしている。




