セマンティック・セントロイドと階層的密度ベースクラスタリングによる文書横断ソフトウェア係り受け解決
arXiv cs.CL / 2026/3/26
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、科学コーパスにまたがってソフトウェア表現の不一致をクラスタリングすることに焦点を当てた、文書横断係り受け解決(CDCR)のSOMD 2026 Shared Taskへの提出システムを提示する。
- センテンスBERTによるセマンティック埋め込み、学習セットのクラスタセントロイドに対するFAISSベースのKBルックアップ、既存クラスタに対して自信をもって一致できなかった言及に対するHDBSCANの密度ベースクラスタリングを組み合わせたハイブリッド・パイプラインを用いる。
- 表層表現の正規化および略語の解決により正規形(カノニカリゼーション)を改善し、CDCRのサブタスク1および2で同一のコア・パイプラインを再利用する。
- 大規模なサブタスク3では、エンティティ種別と正規化された表層表現に基づくブロッキング戦略を導入し、クラスタリングの効率化を図る。
- 報告されている性能は非常に高く、サブタスク1・2・3それぞれでCoNLL F1スコアが0.98、0.98、0.96である。