KARMA:Taobaoにおけるパーソナライズ検索のための、知識・行動正則化マルチモーダルアラインメント

arXiv cs.LG / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMを用いたパーソナライズ検索の微調整において、「知識—行動ギャップ(Knowledge–Action Gap)」を特定する。具体的には、パーソナライズされた行動に最適化すると、事前学習で獲得した意味知識の保持と衝突しうる点である。
  • 行動のみの学習目的は、「意味崩壊(Semantic Collapse)」を引き起こし得ることを報告する。これには注意(attention)の「シンク(sink)」が含まれ、パーソナライズ検索の汎化性能を損なう。
  • 著者らはKARMA(Knowledge–Action Regularized Multimodal Alignment)を提案する。これは、意味再構成を学習時の正則化として用いることで意味知識を維持しつつ、検索指向の次の関心埋め込み(retrieval-oriented next-interest embeddings)を最適化する枠組みである。
  • KARMAは、学習中に意味復号可能性(semantic decodability)を維持するために、補完的な2つの制約—履歴条件付き意味生成と、埋め込み条件付き意味再構成—を用いる。
  • Taobaoでの実験により、KARMAは意味崩壊を軽減し、ランキングおよび検索指標を改善することが示される。例えば、意味復号可能性による最大+22.5 HR@200 や、推論時オーバーヘッドが小さい状況でのオンライン展開結果として+0.5% Item Clickが報告されている。

Abstract

大規模言語モデル(LLM)は深い意味論的知識を備えており、パーソナライズされた検索システムに意味論的な一般化を注入する自然な選択肢となっています。しかし実際には、産業用途のパーソナライズ課題(例:次のアイテム予測)に対してLLMを直接ファインチューニングすると、しばしば最適でない結果になります。私たちは、このボトルネックを重要な Knowledge--Action Gap(知識—行動ギャップ)に帰します。すなわち、事前学習済みの意味論的知識を保持することと、弁別的な目的関数によって特定のパーソナライズされた行動に整合させることとの間に本質的な衝突があるという点です。実証的に、行動のみの学習目的は、注意の「sinks」(行き止まり)などを含む Semantic Collapse(意味崩壊)を誘発します。この劣化はLLMの一般化能力を深刻に損ない、パーソナライズ検索システムへの改善につながりません。 私たちは、KARMA(Knowledge--Action Regularized Multimodal Alignment、知識—行動正則化マルチモーダル整合)を提案します。これは、意味論的再構成を「学習時のみ」の正則化器として扱う統一的枠組みです。KARMAは、検索のための次関心(Action)埋め込みを最適化しつつ、補完的な2つの目的を通じて意味論的デコーダビリティ(Knowledge)を強制します:(i)履歴条件付き意味生成により、最適化をLLM本来の次トークン分布へとアンカーし、(ii)埋め込み条件付き意味再構成により、関心埋め込みが意味的に回復可能であり続けることを制約します。 Taobaoの検索システム上で、KARMAは意味崩壊(attention-sink分析)を緩和し、行動指標と意味の忠実性の両方を改善します。アブレーションでは、意味デコーダビリティにより最大 +22.5 HR@200 が得られます。KARMAを用いることで、ランキングで +0.25 CTR AUC、事前ランキングで +1.86 HR、想起で +2.51 HR を達成します。ランキング段階で推論オーバーヘッドが低い状態でオンライン展開し、KARMAは Item Click の +0.5% 増加をもたらします。