EPM-RL:Eコマースにおけるオンプレミスのプロダクト・マッピングのための強化学習
arXiv cs.CL / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research
要点
- この論文では、販売者がプロモーション用キーワードやプラットフォーム固有タグ、バンドル説明をタイトルに混ぜるようなノイズ環境でも、同一商品の出品同士を対応付ける「プロダクト・マッピング」をオンプレミスで行うための強化学習フレームワークEPM-RLを提案します。
- EPM-RLは、高コストな外部のエージェント型LLMパイプラインへの依存を下げるため、推論を学生モデルに蒸留し、パラメータ効率の良い微調整(PEFT)で学習させます。
- さらに、出力形式の適合、正しいマッチラベル、そして専用に設計したジャッジモデルによる推論の嗜好スコアを同時に評価するエージェント型報酬により、強化学習で最適化します。
- 予備結果では、PEFTのみの学習よりも一貫して性能が向上し、商用APIベースのベースラインよりも品質とコストのトレードオフが良いこと、加えてプライバシーを保ったオンプレミス展開と運用コストの低減が可能であることが示されています。
- この手法は、プロダクト・マッピングを高遅延で運用しにくいエージェント型パイプラインから、スケーラブルで検査可能、実運用に適したオンプレミスシステムへ転換することを目指しています。




