情報密度がユーザー生成コンテンツの固有表現抽出(NER)に与える影響に関するメカニズムと最適化研究
arXiv cs.CL / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- クリーンで高リソースなデータで学習したNERモデルは、ノイズが多く疎なUGC(例:ソーシャルメディア)上で大きく性能が崩れることがあり、従来の対症療法は汎化しにくい。
- 本研究は、ネオロジズム、エイリアスのドリフト、非標準表記、長い尾のエンティティ、クラス不均衡といった表面的な失敗症状の多くに共通する根本要因を、情報密度(ID)の低さにあると特定し、制御付きリサンプリング実験でIDが独立した重要因子であることを示した。
- Attention Spectrum Analysis(ASA)により、情報密度の低下が因果的に「attention blunting(注意の鈍化)」を引き起こし、それがNER性能の低下につながることを定量化する。
- メカニズムに基づき、Window-Aware Optimization Module(WOM)を提案する。WOMはLLMを活用した、モデルに依存しない枠組みで、情報が乏しい領域を特定して選択的バックトランスレーションで意味密度を方向付けて高め、基盤のモデル構造は変えない。
- WNUT2017、Twitter-NER、WNUT2016といった標準UGC NERデータセットで最大+4.5%の絶対F1向上が得られ、WNUT2017では新しいSOTAも達成した。
