CodeNER：固有表現認識のためのコード・プロンプト

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

CodeNERは、コードを埋め込み、LLMに対して明示的なBIOスキーマのラベリング指示を与える「コードベースのプロンプト提示（code-based prompting）」アプローチにより、固有表現認識（NER）を行う手法を提案する。
この方法は、プログラミング言語のスコープに類似した、長距離の構造を扱うLLMの能力を活用しつつ、NERに必要な詳細なラベリング要件をより適切に捉えることを目的としている。
複数言語（英語、アラビア語、フィンランド語、デンマーク語、ドイツ語）にまたがる10のベンチマークでの実験により、コードベースのプロンプト提示が従来のテキストベースのプロンプト提示よりも優れていることが示される。
論文では、コードベースのプロンプト提示にチェイン・オブ・ソート（chain-of-thought）プロンプトを組み合わせることでさらなる改善が得られ、NER性能がさらに向上することも報告している。

要旨: 近年、候補となる固有表現（named entity）スパンを、固有表現認識（NER）においてソース系列とターゲット系列の両方として扱うためのさまざまなアプローチが、大規模言語モデル（LLM）を活用して検討されてきた。先行手法は、適切なラベル付きの候補固有表現スパンを生成することに成功しているものの、特にChatGPTを用いる場合、LLMの使用時に入力コンテキスト情報だけに依存している。だが、NERは本質的に、入力コンテキスト情報とともに詳細なラベリング要件を捉えることを必要とする。この問題に対処するために、我々はコードベースのプロンプトを活用して、LLMがNERを理解し実行する能力を高める新しい方法を提案する。プロンプト内にコードを埋め込むことで、ラベリングのための詳細なBIOスキーマの指示を与え、それによって、プログラミング言語における長距離のスコープを理解するLLMの能力を活用する。実験結果は、提案するコードベースのプロンプト手法が、英語、アラビア語、フィンランド語、デンマーク語、ドイツ語のデータセットにまたがる10のベンチマークにおいて、従来のテキストベースのプロンプトよりも優れていることを示しており、NER指示を明示的に構造化することの有効性が示唆される。さらに、提案するコードベースのプロンプト手法を、思考連鎖（chain-of-thought）プロンプトと組み合わせることで性能がさらに向上することを確認する。

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

Dev.to

CodeNER：固有表現認識のためのコード・プロンプト

要点

関連記事

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

AIクローラ管理：AIボット向けrobots.txtの決定版ガイド

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer