CodeNER:固有表現認識のためのコード・プロンプト

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • CodeNERは、コードを埋め込み、LLMに対して明示的なBIOスキーマのラベリング指示を与える「コードベースのプロンプト提示(code-based prompting)」アプローチにより、固有表現認識(NER)を行う手法を提案する。
  • この方法は、プログラミング言語のスコープに類似した、長距離の構造を扱うLLMの能力を活用しつつ、NERに必要な詳細なラベリング要件をより適切に捉えることを目的としている。
  • 複数言語(英語、アラビア語、フィンランド語、デンマーク語、ドイツ語)にまたがる10のベンチマークでの実験により、コードベースのプロンプト提示が従来のテキストベースのプロンプト提示よりも優れていることが示される。
  • 論文では、コードベースのプロンプト提示にチェイン・オブ・ソート(chain-of-thought)プロンプトを組み合わせることでさらなる改善が得られ、NER性能がさらに向上することも報告している。

要旨: 近年、候補となる固有表現(named entity)スパンを、固有表現認識(NER)においてソース系列とターゲット系列の両方として扱うためのさまざまなアプローチが、大規模言語モデル(LLM)を活用して検討されてきた。先行手法は、適切なラベル付きの候補固有表現スパンを生成することに成功しているものの、特にChatGPTを用いる場合、LLMの使用時に入力コンテキスト情報だけに依存している。だが、NERは本質的に、入力コンテキスト情報とともに詳細なラベリング要件を捉えることを必要とする。この問題に対処するために、我々はコードベースのプロンプトを活用して、LLMがNERを理解し実行する能力を高める新しい方法を提案する。プロンプト内にコードを埋め込むことで、ラベリングのための詳細なBIOスキーマの指示を与え、それによって、プログラミング言語における長距離のスコープを理解するLLMの能力を活用する。実験結果は、提案するコードベースのプロンプト手法が、英語、アラビア語、フィンランド語、デンマーク語、ドイツ語のデータセットにまたがる10のベンチマークにおいて、従来のテキストベースのプロンプトよりも優れていることを示しており、NER指示を明示的に構造化することの有効性が示唆される。さらに、提案するコードベースのプロンプト手法を、思考連鎖(chain-of-thought)プロンプトと組み合わせることで性能がさらに向上することを確認する。