非構造から構造へ:LLMが導く属性グラフによるエンティティ検索とランキング

arXiv cs.CL / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、eコマースにおけるエンティティ検索で、埋め込みだけでは文脈依存の属性の重要度を捉えにくいという課題に対処するため、LLM主導の属性グラフ構築手法を提案しています。
  • 提案手法は二段階で構成されており、オフライン段階で非構造テキストから製品属性を抽出して再利用可能なカテゴリ対応のグラフ・スキーマを作り、オンライン段階ではそのグラフを踏まえたLLM推論で候補を順位付けします。
  • 候補のランキングは生のテキストではなく構造化表現を用いて行うことで、製品あたりのトークン使用量を57%削減しつつ、ランキング精度を向上させます。
  • 学習データを不要とするゼロショット実験で、複数のベースラインを上回り、平均適合率(average precision)を5%以上改善し、さらに多様な製品カテゴリ間でも頑健に一般化します。
  • 著者らは、この手法が効率性と堅牢性の観点から実運用に向けた有望性を持つと結論づけています。

Abstract

エンティティ検索、すなわちクエリとなるエンティティに最も類似するエンティティを見つけることは、商品類似性がカテゴリや文脈によって異なるeコマースにおいて、独自の課題に直面します。従来の埋め込み(embedding)ベースのアプローチでは、文脈に応じた属性の関連性を微妙に捉えることがしばしば難しいです。本論文では、大規模言語モデル(LLM)による属性グラフ構築と、グラフを考慮したLLMによるランキングを組み合わせた、2段階の手法を提案します。オフライン段階では、非構造化テキストから構造化された商品属性を抽出し、カテゴリに応じたスキーマを用いて再利用可能な属性グラフを構築します。オンライン段階では、生のテキストではなく、この構造化された表現をもとに推論して取得候補を順位付けします。これにより、商品あたりのトークン使用量を57%削減しつつ、ランキング精度を向上させます。実験の結果、本手法はゼロショットの状況下で複数のベースラインを上回り、学習データを必要とせずに平均適合率(average precision)を5%以上改善します。さらに、多様な商品カテゴリにわたって堅牢に一般化し、実運用への大きな可能性を示します。