セマンティック・セントロイドと階層的密度ベースクラスタリングによる文書横断ソフトウェア係り受け解決

arXiv cs.CL / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、科学コーパスにまたがってソフトウェア表現の不一致をクラスタリングすることに焦点を当てた、文書横断係り受け解決(CDCR)のSOMD 2026 Shared Taskへの提出システムを提示する。
  • センテンスBERTによるセマンティック埋め込み、学習セットのクラスタセントロイドに対するFAISSベースのKBルックアップ、既存クラスタに対して自信をもって一致できなかった言及に対するHDBSCANの密度ベースクラスタリングを組み合わせたハイブリッド・パイプラインを用いる。
  • 表層表現の正規化および略語の解決により正規形(カノニカリゼーション)を改善し、CDCRのサブタスク1および2で同一のコア・パイプラインを再利用する。
  • 大規模なサブタスク3では、エンティティ種別と正規化された表層表現に基づくブロッキング戦略を導入し、クラスタリングの効率化を図る。
  • 報告されている性能は非常に高く、サブタスク1・2・3それぞれでCoNLL F1スコアが0.98、0.98、0.96である。

Abstract

この論文では、ソフトウェア言及のCross-Document Coreference Resolution(CDCR)に関するSOMD 2026 Shared Taskに提出されたシステムについて述べる。提案手法は、科学コーパス全体にわたって一貫していないソフトウェア言及を特定し、クラスタリングするという課題に取り組む。われわれは、事前学習済みのSentence-BERTモデルから得られる密な意味埋め込み、学習セットのクラスタ重心から構築したKnowledge Base(KB)ルックアップ戦略をFAISSによる効率的な検索で実現すること、そして既存クラスタに確信をもって割り当てられない言及に対してはHDBSCANの密度ベースクラスタリングを用いることを組み合わせたハイブリッドな枠組みを提案する。正規化された表層形(surface-form)処理と略語解決を適用して、カノニカルな名称の一致精度を向上させる。サブタスク1と2には同一のコアパイプラインを適用した。サブタスク3の大規模な設定に対応するため、エンティティ型と正規化された表層形に基づくブロッキング戦略を利用することでパイプラインを適応させた。提案システムは、サブタスク1、2、3それぞれにおいてCoNLL F1スコア0.98、0.98、0.96を達成した。