実世界タスクのために、あまり知られていないエンティティを分類することを可能にする動的なテキスト獲得

arXiv cs.CL / 2026/4/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、エンティティ分類において、あまり知られていない/新しく導入されたエンティティに必要なタスク特化情報が既存NLPリソースでは不足している点に対し、エンティティ名と正解ラベルだけで学習できる仕組みを提案する。
  • ドメインに合わせて各エンティティの記述文を動的に獲得するフレームワークを提示し、その獲得方法としてウェブ情報とLLM(大規模言語モデル)を組み合わせる新規手法を用いる。
  • 獲得したエンティティ記述文を基に、対象タクソノミとタスクに適したテキストベースの分類器を作る。
  • 実世界の2つの分類課題(企業をSICコードへ分類、医療提供者を医療タクソノミコードへ分類)で評価し、最良のマクロF1がそれぞれ82.3%(SIC)と72.9%(医療)を達成した。
  • 事前に大規模なタスク特化コーパスを用意しなくても、ドメインの専門家がタスク別の分類器を作りやすくすることを狙っている。

Abstract

既存の自然言語処理(NLP)リソースは、多くの場合、実世界の問題に必要なタスク固有の情報を欠いているほか、あまり知られていない、あるいは新しく導入されたエンティティに対するカバー範囲が限定的です。たとえば、事業組織や医療提供者は、特定のアプリケーションタスクに対して、さまざまな分類体系に基づいて分類される必要があるかもしれません。我々の目的は、学習データとしてエンティティ名とゴールドラベルのみを提供することで、ドメインの専門家がエンティティに対するタスク固有の分類器を容易に作成できるようにすることです。その後、我々の枠組みは各エンティティに関する記述テキストを動的に獲得し、それをテキストベースの分類器を生成するための基盤として用います。我々は、ウェブと大規模言語モデル(LLM)の両方を活用する新しいテキスト獲得手法を提案します。提案する枠組みを、異なる領域における2つの分類問題で評価します:(i)事業活動に基づいて組織を分類する標準産業分類(SIC)コードへの分類、(ii)医療提供者の診療科目と実務領域を表す医療提供者のタクソノミコードへの分類です。我々の最良のモデルは、SICコード分類タスクおよび医療タクソノミコード分類タスクにおいて、それぞれマクロ平均F1スコア82.3%および72.9%を達成しました。