AI Navigate

Probe-then-Plan: 産業向けEコマース検索の環境認識プランニング

arXiv cs.AI / 2026/3/17

📰 ニュースIdeas & Deep AnalysisIndustry & Market MovesModels & Research

要点

  • 環境認識検索計画(EASP)は、LLMベースのアプローチが抱える盲点と遅延のトレードオフを克服するため、リアルタイムの環境コンテキストに基づく動的推論タスクとしてeコマース検索計画を再定義する。
  • Probe-then-Plan メカニズムは、軽量な Retrieval Probe を用いて現在の取得スナップショットを公開し、プランナーが実行上のギャップを診断し、根拠のある実現可能な検索計画を生成できるようにする。
  • 研究ワークフローは、教師エージェントによるオフラインデータ合成、教師ありファインチューニングによるプランナー訓練、強化学習によるビジネス成果との整合、複雑さを考慮したルーティングを用いた適応的オンライン提供によって計画リソースを配分する。
  • JD.com のオンライン結果は、関連リコールの向上と UCVR および GMV の大幅な上昇を示しており、この手法は JD.com の AI-Search システムに導入されていることから、産業実用性を示している。

要旨: 現代の電子商取引の検索は、複雑なユーザーの意図を解決するべく進化しています。巨大言語モデル(LLMs)は強力な推論を提供しますが、既存のLLMベースのパラダイムには根本的な盲目性と遅延のジレンマが存在します:クエリの書換えは検索能力とリアルタイム在庫に対して無関心であり、無効な計画を生む一方で、ディープサーチエージェントは反復的なツール呼び出しとリフレクションに依存し、産業のサブ秒予算と両立しない数秒の遅延を発生させます。この対立を解決するため、環境認識型検索計画(EASP)を提案し、検索計画を環境現実に基づく動的推論プロセスとして再定式化します。EASPは Probe-then-Plan 機構を導入します:軽量な Retrieval Probe が取得スナップショットを公開し、プランナーが実行のギャップを診断し、根拠ある検索計画を生成できるようにします。手法は三段階で構成されます:(1)オフラインデータ合成:教師エージェントが検証済みの多様で実行可能な計画を、探査された環境を診断することで合成します。(2)プランナーの訓練と整合:プランナーは監督付きファインチューニング(SFT)を通じて診断能力を内部化し、次に強化学習(RL)を介してビジネス成果(コンバージョン率)と整合させます。(3)適応的なオンライン提供:複雑なクエリに対して計画を選択的に有効化する、複雑さを考慮したルーティング機構により、最適なリソース配分を保証します。JD.comでの広範なオフライン評価とオンラインA/Bテストは、EASPが関連リコールを大幅に改善し、UCVRおよびGMVで大きな向上を達成することを示しています。EASPはJD.comのAI-Searchシステムに成功裏に展開されています。