Just Pass Twice:LLMによるゼロショットNERのための効率的なトークン分類

arXiv cs.CL / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、因果(causal)型LLMは、左から右への(因果的)注意(attention)により将来の文脈が必要となる曖昧性解消の場面で、NERにおけるゼロショットのトークン分類が難しいことを説明している。
  • 提案手法「Just Pass Twice(JPT)」は、入力文を自身と連結し、その2回目のパスでトークンがモデル構造を変更することなく、双方向の文脈全体を効果的に参照できるようにする。
  • JPTは、双方向に情報を反映した表現と、定義に導かれたエンティティ埋め込み(entity embeddings)を組み合わせることで、エンティティ型をまたいだ柔軟なゼロショット汎化を向上させる。
  • ゼロショットNERベンチマーク(CrossNERおよびMIT)において、本手法は先行最高手法に対する平均+7.9 F1の改善として、最先端の性能を報告している。
  • さらに、本手法は比較対象となる生成的デコーディングベースのNER手法より20倍以上高速であると主張されており、遅い自己回帰生成、幻覚的なエンティティの生成、フォーマットエラーといった問題も低減する。

Abstract

大規模言語モデルは、ゼロショット固有表現認識に有用な膨大な世界知識をエンコードしている。 しかし、トークンが先行する文脈のみに注目する因果的注意機構では、曖昧性の解消に将来の文脈が必要な場合に、効果的なトークン分類が妨げられる。 既存手法ではLLMを生成的に用い、エンティティの一覧を作らせたり、構造化された出力を生成させたりするが、遅い自己回帰デコーディング、幻覚的なエンティティ、そしてフォーマットの誤りといった問題がある。 我々は Just Pass Twice (JPT) を提案する。これは単純でありながら効果的な方法であり、因果的LLMが完全な双方向文脈を用いて識別的なトークン分類を実行できるようにする。 我々の重要な着想は、入力をそれ自体に連結することで、2回目のパスにおける各トークンが文全体に注意できるようにし、アーキテクチャの変更を一切不要にする点にある。 我々はこれらの表現を、定義に導かれたエンティティ埋め込みと組み合わせることで、柔軟なゼロショットの汎化を実現する。 本手法は、ゼロショットNERベンチマークで最先端の結果を達成し、CrossNERおよびMITベンチマークにおいて平均で従来の最良手法を+7.9 F1上回る。さらに、同等の生成的手法よりも20倍以上高速である。