EPM-RL：Eコマースにおけるオンプレミスのプロダクト・マッピングのための強化学習

arXiv cs.CL / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

共有:

要点

この論文では、販売者がプロモーション用キーワードやプラットフォーム固有タグ、バンドル説明をタイトルに混ぜるようなノイズ環境でも、同一商品の出品同士を対応付ける「プロダクト・マッピング」をオンプレミスで行うための強化学習フレームワークEPM-RLを提案します。
EPM-RLは、高コストな外部のエージェント型LLMパイプラインへの依存を下げるため、推論を学生モデルに蒸留し、パラメータ効率の良い微調整（PEFT）で学習させます。
さらに、出力形式の適合、正しいマッチラベル、そして専用に設計したジャッジモデルによる推論の嗜好スコアを同時に評価するエージェント型報酬により、強化学習で最適化します。
予備結果では、PEFTのみの学習よりも一貫して性能が向上し、商用APIベースのベースラインよりも品質とコストのトレードオフが良いこと、加えてプライバシーを保ったオンプレミス展開と運用コストの低減が可能であることが示されています。
この手法は、プロダクト・マッピングを高遅延で運用しにくいエージェント型パイプラインから、スケーラブルで検査可能、実運用に適したオンプレミスシステムへ転換することを目指しています。

Abstract

製品マッピング（2つのEC（e-commerce）掲載情報が同一の製品を指しているかを判断するタスク）は、価格モニタリングやチャネル可視性のための中核的な課題です。しかし実際のマーケットプレイスでは、販売者が販促用のキーワード、プラットフォーム固有のタグ、バンドル（セット）説明文をタイトルに頻繁に埋め込み、その結果として同一製品が多様な名称の下に多数表示されることがあります。近年、LLMベースやマルチエージェントの枠組みは、このような難しいケースに対する頑健性や解釈可能性を高めていますが、多くの場合、高価な外部APIへの依存、繰り返しの検索、複雑な推論時オーケストレーションを必要とし、そのためプライバシーに配慮したエンタープライズ環境での大規模な導入にはコストがかかり、実現も困難です。これらの課題に対処するために、我々はオンプレミスのEC製品マッピングモデルを、正確かつ効率的に構築するための強化学習ベースの枠組みであるEPM-RLを提案します。中心となる発想は、高コストなエージェント的推論を訓練可能な社内モデルへ蒸留することです。LLMによって生成された論拠と人手による検証を伴う、厳選された製品ペアの集合から出発し、まず構造化された推論出力を用いて、小さな学生モデルに対してパラメータ効率のよい微調整（PEFT）を行います。次に、特別に設計した判定モデルから得られる「出力形式の適合」「ラベルの正確性」「推論―選好スコア」を、エージェントベースの報酬として共同で評価する強化学習（RL）により、さらにモデルを最適化します。予備的な結果では、EPM-RLは一貫してPEFTのみの訓練よりも改善し、商用APIベースのベースラインよりも強い品質―コストのトレードオフを提供し、さらにプライベートな導入と運用コストの低減を可能にすることが示されています。これらの知見は、強化学習によって製品マッピングを、高遅延のエージェント的パイプラインから、スケーラブルで検査可能な、そして本番投入に適した社内システムへと変えられることを示唆しています。