要約(アブストラクト)とハイライトを統合して学術論文からの教師なしキーワード抽出を強化する

arXiv cs.CL / 2026/4/22

💬 オピニオンModels & Research

要点

  • 本論文は、学術論文の「ハイライト」セクションを取り込むことで、アブストラクトのみの場合よりも教師なしキーワード抽出を改善できるかを調査している。
  • 著者らは、アブストラクトのみ/ハイライトのみ/アブストラクト+ハイライトの組み合わせという3つの入力条件を、4つの教師なしモデルで評価している。
  • Computer Science(CS)およびLibrary and Information Science(LIS)のデータセットでの実験により、アブストラクトとハイライトを統合するとキーワード抽出性能が有意に向上することが示されている。
  • アブストラクトとハイライトの間で、キーワードのカバレッジや内容にどのような違いがあり、それが抽出結果にどう影響するかも分析している。
  • 著者らは、提示されたGitHubリポジトリを通じてデータとコードを公開し、再現性とさらなる研究を促進している。

Abstract

学術論文からの自動キーワード抽出は、自然言語処理および情報検索における重要な関心領域である。これまでの研究では主に、キーワード抽出のために要旨(abstract)や参考文献(references)を利用することに焦点が当てられてきたが、本論文ではハイライト部(highlights)――主要な発見と貢献を記述する要約であり、読者に研究の概要を素早く提示するもの――に注目する。観察によれば、ハイライトには価値あるキーワード情報が含まれており、要旨を効果的に補完し得ることが示される。非教師ありキーワード抽出にハイライトを取り入れることの影響を調べるために、3つの入力シナリオ、すなわち要旨のみ、ハイライトのみ、そして両方の組み合わせを評価する。コンピュータサイエンス(CS)および図書館・情報科学(LIS)のデータセットに対して4つの非教師ありモデルで行った実験の結果、要旨とハイライトを統合することで抽出性能が大幅に向上することが明らかになった。さらに、要旨とハイライトの間におけるキーワードのカバレッジと内容の違いを調べ、それらの差異が抽出結果にどのように影響するかを探る。データとコードは https://github.com/xiangyi-njust/Highlight-KPE で利用可能である。