「Novelty(新規性)はどれほど新しいのか?」文章検索に基づく微細な特許新規性予測

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、特許の新規性予測はクレーム単位の二値分類だけでは不十分であり、偽の相関に依存したり実務に必要な「特徴(フィーチャー)単位の粒度」が欠けたりすると主張しています。
  • FiNE-Patentsとして、欧州調査意見(ESOP)文書から抽出した微細な特徴レベルの先行技術参照を付与した、第一出願のクレーム3,658件からなるデータセットを提示します。
  • タスクは「特徴ごとに先行技術を開示している具体的な箇所を検索し、どの特徴が新規性を生むのかを推論する」という、検索と抽象的推論の共同問題へと再定義されています。
  • クレームを特徴に分解し、各特徴を先行技術と照合してからクレーム単位の新規性予測に統合する、LLMベースのワークフローが実装・評価されています。
  • 実験では、提案ワークフローが通路(パッセージ)検索と新規特徴の特定の両方で埋め込みベースのベースラインを上回り、またクレーム単位分類で見られる偽の相関に対して、学習済み分類器よりLLMが頑健であることが示されています。データセットとコードも公開されます。

要旨: 新規性の評価は、特許の受理に向けた審査プロセスにおいて重要である一方、複雑な作業です。この作業では、審査官が、発明が先行技術文献に開示されているかどうかを判断する必要があります。プロセスには、特許請求項の特定の特徴と先行技術中の記述との間の、入念な照合が含まれます。従来の研究では、新規性予測を主として、請求項レベルでの二値分類問題として扱うことが多かったのに対し、本研究では、この定式化は見かけ上の相関(spurious correlations)に影響されやすく、実用に必要な粒度が欠けていると主張します。本研究では、FiNE-Patents(Fine-grained Novelty Examination of Patents)を導入します。これは、欧州調査意見(ESOP)文書から抽出した、微細な特徴レベルの先行技術参照によって注釈付けられた、最初の特許請求項3,658件から成る新しいデータセットです。評価のパラダイムを、単純な二値分類から、特徴レベルでの共同検索および要約的推論タスクへと移行することを提案します。具体的には、モデルが先行技術文献の中から、請求項の各特徴を開示している特定の記述を見つけ、さらに請求項のどの特徴が新規性をもたらしているのかを特定する必要があります。提案手法では、請求項を特徴に分解し、各特徴を先行技術に照らして分析し、最後に請求項レベルの新規性予測を導出する、LLMベースのワークフローを実装し評価します。実験の結果、これらのワークフローは、記述埋め込みに基づくベースラインよりも、記述の検索および新規な特徴の特定において優れていることが示されました。さらに、訓練済み分類器とは異なり、LLMは、請求項レベルの新規性分類タスクに存在する見かけ上の相関に対して頑健であることも示します。データセットおよびコードを公開し、透明で粒度の高い特許分析に関するさらなる研究を促進します。